diff --git a/README.md b/README.md index 54261bac2..b8141892a 100644 --- a/README.md +++ b/README.md @@ -52,7 +52,7 @@ Table of Contents ## Features -![Overview](https://img.alicdn.com/imgextra/i4/O1CN01uvLL0T1VIaX28dMLg_!!6000000002630-2-tps-2509-1192.png) +![Overview](https://img.alicdn.com/imgextra/i2/O1CN01IMPeD11xYRUYLmXKO_!!6000000006455-2-tps-3620-1604.png) - **Systematic & Reusable**: Empowering users with a systematic library of 20+ reusable [config recipes](configs), 50+ core [OPs](docs/Operators.md), and feature-rich @@ -64,8 +64,7 @@ Table of Contents ![Data-in-the-loop](https://img.alicdn.com/imgextra/i1/O1CN011E99C01ndLZ55iCUS_!!6000000005112-0-tps-2701-1050.jpg) - **Comprehensive Data Processing Recipes**: Offering tens of [pre-built data - processing recipes](configs/data_juicer_recipes/README.md) for - pre-training, post-tuning, en, zh, and more scenarios. Validated on + processing recipes](configs/data_juicer_recipes/README.md) for pre-training, fine-tuning, en, zh, and more scenarios. Validated on reference LLaMA models. ![exp_llama](https://img.alicdn.com/imgextra/i1/O1CN01D0Nuof1uOPxvBVEq9_!!6000000006027-0-tps-2324-754.jpg) @@ -124,11 +123,18 @@ pip install py-data-juicer ### Using Docker -- Run the following command to build the docker image including the latest `data-juicer` with provided [Dockerfile](Dockerfile): +- You can + - either pull our pre-built image from DockerHub: + ```shell + docker pull datajuicer/data-juicer: + ``` -```shell -docker build -t data-juicer: . -``` + - or run the following command to build the docker image including the + latest `data-juicer` with provided [Dockerfile](Dockerfile): + + ```shell + docker build -t data-juicer: . + ``` ### Installation check @@ -271,7 +277,7 @@ docker exec -it bash - [Recipes for data process in BLOOM](configs/reproduced_bloom/README.md) - [Recipes for data process in RedPajama](configs/redpajama/README.md) - [Refined recipes for pre-training data](configs/data_juicer_recipes/README.md) -- [Refined recipes for post-tuning data](configs/data_juicer_recipes/README.md#before-and-after-refining-for-alpaca-cot-dataset) +- [Refined recipes for fine-tuning data](configs/data_juicer_recipes/README.md#before-and-after-refining-for-alpaca-cot-dataset) ## Demos - Introduction to Data-Juicer [[ModelScope](https://modelscope.cn/studios/Data-Juicer/overview_scan/summary)] diff --git a/README_ZH.md b/README_ZH.md index 6ed56e069..0bd640b33 100644 --- a/README_ZH.md +++ b/README_ZH.md @@ -51,13 +51,13 @@ Data-Juicer 是一个一站式数据处理系统,旨在为大语言模型 (LLM ## 特点 -![Overview](https://img.alicdn.com/imgextra/i4/O1CN01uvLL0T1VIaX28dMLg_!!6000000002630-2-tps-2509-1192.png) +![Overview](https://img.alicdn.com/imgextra/i2/O1CN01IMPeD11xYRUYLmXKO_!!6000000006455-2-tps-3620-1604.png) * **系统化 & 可复用**:为用户提供系统化且可复用的20+[配置菜谱](configs/README_ZH.md),50+核心[算子](docs/Operators_ZH.md)和专用[工具池](#documentation),旨在让数据处理独立于特定的大语言模型数据集和处理流水线。 * **数据反馈回路**:支持详细的数据分析,并提供自动报告生成功能,使您深入了解您的数据集。结合多维度自动评估功能,支持在 LLM 开发过程的多个阶段进行及时反馈循环。 ![Data-in-the-loop](https://img.alicdn.com/imgextra/i1/O1CN011E99C01ndLZ55iCUS_!!6000000005112-0-tps-2701-1050.jpg) -* **全面的数据处理菜谱**:为pre-training、post-tuning、中英文等场景提供数十种[预构建的数据处理菜谱](configs/data_juicer_recipes/README_ZH.md)。 ![exp_llama](https://img.alicdn.com/imgextra/i1/O1CN01D0Nuof1uOPxvBVEq9_!!6000000006027-0-tps-2324-754.jpg) +* **全面的数据处理菜谱**:为pre-training、fine-tuning、中英文等场景提供数十种[预构建的数据处理菜谱](configs/data_juicer_recipes/README_ZH.md)。 ![exp_llama](https://img.alicdn.com/imgextra/i1/O1CN01D0Nuof1uOPxvBVEq9_!!6000000006027-0-tps-2324-754.jpg) * **效率增强**:提供高效的数据处理流水线,减少内存占用和CPU开销,提高生产力。 ![sys-perf](https://img.alicdn.com/imgextra/i4/O1CN01Sk0q2U1hdRxbnQXFg_!!6000000004300-0-tps-2438-709.jpg) @@ -112,11 +112,16 @@ pip install py-data-juicer ### 使用 Docker 安装 -- 运行如下命令用我们提供的 [Dockerfile](Dockerfile) 来构建包括最新版本的 `data-juicer` 的 docker 镜像: +- 您可以选择 + - 从DockerHub直接拉取我们的预置镜像: + ```shell + docker pull datajuicer/data-juicer: + ``` + - 或者运行如下命令用我们提供的 [Dockerfile](Dockerfile) 来构建包括最新版本的 `data-juicer` 的 docker 镜像: -```shell -docker build -t data-juicer: . -``` + ```shell + docker build -t data-juicer: . + ``` ### 安装校验 @@ -253,7 +258,7 @@ docker exec -it bash * [BLOOM 数据处理菜谱](configs/reproduced_bloom/README_ZH.md) * [RedPajama 数据处理菜谱](configs/reproduced_redpajama/README_ZH.md) * [预训练数据增强菜谱](configs/data_juicer_recipes/README_ZH.md) -* [Post-tuning数据增强菜谱](configs/data_juicer_recipes/README_ZH.md#完善前后的alpaca-cot数据集) +* [Fine-tuning数据增强菜谱](configs/data_juicer_recipes/README_ZH.md#完善前后的alpaca-cot数据集) ## 演示样例 diff --git a/app.py b/app.py index 8b9cfb8a3..0b5c66ac0 100644 --- a/app.py +++ b/app.py @@ -423,7 +423,7 @@ def set_sliders(total_stats, ordered): @staticmethod def diversity(): - with st.expander('Diversity for sft dataset', expanded=False): + with st.expander('Diversity for CFT dataset', expanded=False): dataset = st.session_state.get('dataset', None) cfg = st.session_state.get('cfg', parse_cfg()[2]) text_key = st.session_state.get('text_key', 'text') diff --git a/configs/README.md b/configs/README.md index 1289ec0a2..3f205c799 100644 --- a/configs/README.md +++ b/configs/README.md @@ -29,4 +29,4 @@ We have reproduced the processing flow of some RedPajama datasets. Please refer We have reproduced the processing flow of some BLOOM datasets. please refer to the [reproduced_bloom](reproduced_bloom) folder for details. ### Data-Juicer Recipes -We have refined some open source datasets (including SFT datasets) by using Data-Juicer and have provided configuration files for the refined flow. please refer to the [data_juicer_recipes](data_juicer_recipes) folder for details. \ No newline at end of file +We have refined some open source datasets (including CFT datasets) by using Data-Juicer and have provided configuration files for the refined flow. please refer to the [data_juicer_recipes](data_juicer_recipes) folder for details. \ No newline at end of file diff --git a/configs/README_ZH.md b/configs/README_ZH.md index 29f7e81d7..67a50eaaa 100644 --- a/configs/README_ZH.md +++ b/configs/README_ZH.md @@ -30,4 +30,4 @@ Demo 配置文件用于帮助用户快速熟悉 Data-Juicer 的基本功能, 我们已经重现了部分 BLOOM 数据集的处理流程,请参阅 [reproduced_bloom](reproduced_bloom) 文件夹以获取详细说明。 ### Data-Juicer 菜谱 -我们使用 Data-Juicer 更细致地处理了一些开源数据集(包含 SFT 数据集),并提供了处理流程的配置文件。请参阅 [data_juicer_recipes](data_juicer_recipes) 文件夹以获取详细说明。 \ No newline at end of file +我们使用 Data-Juicer 更细致地处理了一些开源数据集(包含 CFT 数据集),并提供了处理流程的配置文件。请参阅 [data_juicer_recipes](data_juicer_recipes) 文件夹以获取详细说明。 \ No newline at end of file diff --git a/configs/data_juicer_recipes/README.md b/configs/data_juicer_recipes/README.md index b51fd2572..6818e4be7 100644 --- a/configs/data_juicer_recipes/README.md +++ b/configs/data_juicer_recipes/README.md @@ -33,5 +33,5 @@ We use simple 3-σ rule to set the hyperparameters for ops in each recipe. | subset | #samples before | #samples after | keep ratio | config link | data link | source | |------------------|:-------------------------:|:--------------------------------------:|:----------:|------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|--------------------------------------------------------------------------------------------------------------------------------------------------------------------|-------------------------| -| Alpaca-Cot EN | 136,219,879 | 72,855,345 | 54.48% | [alpaca-cot-en-refine.yaml](alpaca_cot/alpaca-cot-en-refine.yaml) | [Aliyun](https://dail-wlcb.oss-cn-wulanchabu.aliyuncs.com/LLM_data/our_refined_datasets/SFT/alpaca-cot-en-refine_result.jsonl)
[ModelScope](https://modelscope.cn/datasets/Data-Juicer/alpaca-cot-en-refined-by-data-juicer/summary) | [39 Subsets of Alpaca-CoT](alpaca_cot/README.md#refined-alpaca-cot-dataset-meta-info) | -| Alpaca-Cot ZH | 21,197,246 | 9,873,214 | 46.58% | [alpaca-cot-zh-refine.yaml](alpaca_cot/alpaca-cot-zh-refine.yaml) | [Aliyun](https://dail-wlcb.oss-cn-wulanchabu.aliyuncs.com/LLM_data/our_refined_datasets/SFT/alpaca-cot-zh-refine_result.jsonl)
[ModelScope](https://modelscope.cn/datasets/Data-Juicer/alpaca-cot-zh-refined-by-data-juicer/summary) | [28 Subsets of Alpaca-CoT](alpaca_cot/README.md#refined-alpaca-cot-dataset-meta-info) | +| Alpaca-Cot EN | 136,219,879 | 72,855,345 | 54.48% | [alpaca-cot-en-refine.yaml](alpaca_cot/alpaca-cot-en-refine.yaml) | [Aliyun](https://dail-wlcb.oss-cn-wulanchabu.aliyuncs.com/LLM_data/our_refined_datasets/CFT/alpaca-cot-en-refine_result.jsonl)
[ModelScope](https://modelscope.cn/datasets/Data-Juicer/alpaca-cot-en-refined-by-data-juicer/summary) | [39 Subsets of Alpaca-CoT](alpaca_cot/README.md#refined-alpaca-cot-dataset-meta-info) | +| Alpaca-Cot ZH | 21,197,246 | 9,873,214 | 46.58% | [alpaca-cot-zh-refine.yaml](alpaca_cot/alpaca-cot-zh-refine.yaml) | [Aliyun](https://dail-wlcb.oss-cn-wulanchabu.aliyuncs.com/LLM_data/our_refined_datasets/CFT/alpaca-cot-zh-refine_result.jsonl)
[ModelScope](https://modelscope.cn/datasets/Data-Juicer/alpaca-cot-zh-refined-by-data-juicer/summary) | [28 Subsets of Alpaca-CoT](alpaca_cot/README.md#refined-alpaca-cot-dataset-meta-info) | diff --git a/configs/data_juicer_recipes/README_ZH.md b/configs/data_juicer_recipes/README_ZH.md index 2a5c6bf3b..12a5d6e31 100644 --- a/configs/data_juicer_recipes/README_ZH.md +++ b/configs/data_juicer_recipes/README_ZH.md @@ -33,5 +33,5 @@ | 数据子集 | 完善前的样本数目 | 完善后的样本数目 | 样本保留率 | 配置链接 | 数据链接 | 来源 | |-------------------|:------------------------:|:----------------------------------:|:---------:|-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|-----------------------------------------------| -| Alpaca-Cot EN | 136,219,879 | 72,855,345 | 54.48% | [alpaca-cot-en-refine.yaml](alpaca_cot/alpaca-cot-en-refine.yaml) | [Aliyun](https://dail-wlcb.oss-cn-wulanchabu.aliyuncs.com/LLM_data/our_refined_datasets/SFT/alpaca-cot-en-refine_result.jsonl)
[ModelScope](https://modelscope.cn/datasets/Data-Juicer/alpaca-cot-en-refined-by-data-juicer/summary) | [来自Alpaca-CoT的39个子集](alpaca_cot/README_ZH.md#完善的-alpaca-cot-数据集元信息) | -| Alpaca-Cot ZH | 21,197,246 | 9,873,214 | 46.58% | [alpaca-cot-zh-refine.yaml](alpaca_cot/alpaca-cot-zh-refine.yaml) | [Aliyun](https://dail-wlcb.oss-cn-wulanchabu.aliyuncs.com/LLM_data/our_refined_datasets/SFT/alpaca-cot-zh-refine_result.jsonl)
[ModelScope](https://modelscope.cn/datasets/Data-Juicer/alpaca-cot-zh-refined-by-data-juicer/summary) | [来自Alpaca-CoT的28个子集](alpaca_cot/README_ZH.md#完善的-alpaca-cot-数据集元信息) | +| Alpaca-Cot EN | 136,219,879 | 72,855,345 | 54.48% | [alpaca-cot-en-refine.yaml](alpaca_cot/alpaca-cot-en-refine.yaml) | [Aliyun](https://dail-wlcb.oss-cn-wulanchabu.aliyuncs.com/LLM_data/our_refined_datasets/CFT/alpaca-cot-en-refine_result.jsonl)
[ModelScope](https://modelscope.cn/datasets/Data-Juicer/alpaca-cot-en-refined-by-data-juicer/summary) | [来自Alpaca-CoT的39个子集](alpaca_cot/README_ZH.md#完善的-alpaca-cot-数据集元信息) | +| Alpaca-Cot ZH | 21,197,246 | 9,873,214 | 46.58% | [alpaca-cot-zh-refine.yaml](alpaca_cot/alpaca-cot-zh-refine.yaml) | [Aliyun](https://dail-wlcb.oss-cn-wulanchabu.aliyuncs.com/LLM_data/our_refined_datasets/CFT/alpaca-cot-zh-refine_result.jsonl)
[ModelScope](https://modelscope.cn/datasets/Data-Juicer/alpaca-cot-zh-refined-by-data-juicer/summary) | [来自Alpaca-CoT的28个子集](alpaca_cot/README_ZH.md#完善的-alpaca-cot-数据集元信息) | diff --git a/configs/data_juicer_recipes/alpaca_cot/README.md b/configs/data_juicer_recipes/alpaca_cot/README.md index d78f7a7b1..11dd8e887 100644 --- a/configs/data_juicer_recipes/alpaca_cot/README.md +++ b/configs/data_juicer_recipes/alpaca_cot/README.md @@ -56,58 +56,59 @@ Each sample in refined data of Alpaca-CoT contains meta info listed as below: - COL: [Collection of Dataset] Dataset made from a collection of other datasets #### Data-Juicer Meta info -* Dataset: Dataset in Alpaca-CoT +* `Dataset`: dataset name in Alpaca-CoT +* `origin_path`: original file path in Alpaca-CoT -* Multi-round Dialog (MRD): Multi-round Dialog datasets +* `IFT`: tagged as Instruct Fine-Tuning datasets -* IFT: Instruction Fine-Tuning datasets +* `CFT`: tagged as Chat Fine-Tuning datasets -* SFT: Supervised Fine-Tuning datasets + * `CFT-SR`: tagged as Single-round Dialog datasets -* Preference: Preference datasets + * `CFT-MR`: tagged as Multi-round Dialog datasets + + * `CFT-P`: tagged as Preference datasets -* origin_path: original file path in Alpaca-CoT #### Refined Alpaca-CoT dataset Meta info -| | Task | Gen | Lang | Dataset | MRD | IFT | SFT | Preference | -|:---------------------|:-------|:------|:-------|:---------------------|:----:|:---:|:---:|:---:| -| Chain-of-Thought | MT | HG | EN/CN | Chain-of-Thought | | ✅ | | | -| GPT4all | MT | COL | EN | GPT4all | | ✅ | ✅ | | -| GPTeacher | MT | SI | EN | GPTeacher | | | ✅ | | -| Guanaco | MT | SI | ML | Guanaco | | | ✅ | | -| HC3 | TS | MIX | EN/CN | HC3 | | | ✅ | ✅ | -| alpaca | MT | SI | EN | alpaca | | | ✅ | | -| Natural-Instructions | MT | COL | ML | Natural-Instructions | | ✅ | | | -| belle_cn | TS/MT | SI | CN | belle_cn | | | ✅ | | -| instinwild | MT | SI | EN/CN | instinwild | | | ✅ | | -| prosocial-dialog | TS | MIX | EN | prosocial-dialog | | | ✅ | | -| finance | TS | COL | EN | finance | | | ✅ | | -| xP3 | MT | COL | ML | xP3 | | ✅ | | | -| firefly | MT | COL | CN | firefly | | ✅ | | | -| instruct | MT | COL | EN | instruct | | | ✅ | | -| CodeAlpaca | TS | SI | EN | CodeAlpaca | | ✅ | | | -| alpacaGPT4 | MT | SI | EN/CN | alpacaGPT4 | | | ✅ | ✅ | -| webGPT | TS | MIX | EN | webGPT | | ✅ | | ✅ | -| dolly | TS | HG | EN | dolly | | | ✅ | | -| baize | MT | COL | EN | baize | | | ✅ | | -| hh-rlhf | TS | MIX | EN | hh-rlhf | ✅ | | ✅ | ✅ | -| OIG | MT | COL | EN | OIG | | | ✅ | | -| GAOKAO | MT | COL | CN | GAOKAO | | ✅ | | | -| camel | MT | SI | EN | camel | | ✅ | | | -| FLAN-Muffin | MT | COL | EN | FLAN-Muffin | | ✅ | | | -| COIG | MT | COL | CN | COIG | | | ✅ | | -| gpt4tools | MT | SI | EN | gpt4tools | | ✅ | | | -| ShareGPT | MT | MIX | EN | ShareGPT | ✅ | | ✅ | | -| Auto-CoT | MT | COL | EN | Auto-CoT | | ✅ | | | -| MOSS | TS | SI | EN/CN | MOSS | | | ✅ | | -| ultrachat | TS | SI | EN | ultrachat | | | ✅ | | -| Chinese-medical | TS | COL | CN | Chinese-medical | | | ✅ | | -| CSL | MT | COL | CN | CSL | | ✅ | | | -| pCLUE | MT | COL | CN | pCLUE | | ✅ | | | -| news_commentary | TS | COL | CN | news_commentary | | ✅ | | | -| StackExchange | MT | COL | EN | StackExchange | | | ✅ | ✅ | -| ConvAI2 | TS | HG | EN | ConvAI2 | | | ✅ | | -| FastChat | MT | SI | EN | FastChat | | | ✅ | | -| Tabular-LLM-Data | MT | COL | EN/CN | Tabular-LLM-Data | | ✅ | | | -| ThoughtSource | MT | COL | EN | ThoughtSource | | ✅ | | | \ No newline at end of file +| | Task | Gen | Lang | Dataset | IFT | CFT-SR | CFT-MR | CFT-P | +|---------------------- |------- |----- |------- |---------------------- |----- |--------- |--------- |---------------- | +| Chain-of-Thought | MT | HG | EN/CN | Chain-of-Thought | ✅ | | | | +| GPT4all | MT | COL | EN | GPT4all | ✅ | ✅ | | | +| GPTeacher | MT | SI | EN | GPTeacher | | ✅ | | | +| Guanaco | MT | SI | ML | Guanaco | | ✅ | | | +| HC3 | TS | MIX | EN/CN | HC3 | | ✅ | | ✅ | +| alpaca | MT | SI | EN | alpaca | | ✅ | | | +| Natural-Instructions | MT | COL | ML | Natural-Instructions | ✅ | | | | +| belle_cn | TS/MT | SI | CN | belle_cn | | ✅ | | | +| instinwild | MT | SI | EN/CN | instinwild | | ✅ | | | +| prosocial-dialog | TS | MIX | EN | prosocial-dialog | | ✅ | | | +| finance | TS | COL | EN | finance | | ✅ | | | +| xP3 | MT | COL | ML | xP3 | ✅ | | | | +| firefly | MT | COL | CN | firefly | ✅ | | | | +| instruct | MT | COL | EN | instruct | | ✅ | | | +| CodeAlpaca | TS | SI | EN | CodeAlpaca | ✅ | | | | +| alpacaGPT4 | MT | SI | EN/CN | alpacaGPT4 | | ✅ | | ✅ | +| webGPT | TS | MIX | EN | webGPT | ✅ | | | ✅ | +| dolly | TS | HG | EN | dolly | | ✅ | | | +| baize | MT | COL | EN | baize | | ✅ | | | +| hh-rlhf | TS | MIX | EN | hh-rlhf | | ✅ | ✅ | ✅ | +| OIG | MT | COL | EN | OIG | | ✅ | | | +| GAOKAO | MT | COL | CN | GAOKAO | ✅ | | | | +| camel | MT | SI | EN | camel | ✅ | | | | +| FLAN-Muffin | MT | COL | EN | FLAN-Muffin | ✅ | | | | +| COIG | MT | COL | CN | COIG | | ✅ | | | +| gpt4tools | MT | SI | EN | gpt4tools | ✅ | | | | +| ShareGPT | MT | MIX | EN | ShareGPT | | ✅ | ✅ | | +| Auto-CoT | MT | COL | EN | Auto-CoT | ✅ | | | | +| MOSS | TS | SI | EN/CN | MOSS | | ✅ | | | +| ultrachat | TS | SI | EN | ultrachat | | ✅ | | | +| Chinese-medical | TS | COL | CN | Chinese-medical | | ✅ | | | +| CSL | MT | COL | CN | CSL | ✅ | | | | +| pCLUE | MT | COL | CN | pCLUE | ✅ | | | | +| news_commentary | TS | COL | CN | news_commentary | ✅ | | | | +| StackExchange | MT | COL | EN | StackExchange | | ✅ | | ✅ | +| ConvAI2 | TS | HG | EN | ConvAI2 | | ✅ | | | +| FastChat | MT | SI | EN | FastChat | | ✅ | | | +| Tabular-LLM-Data | MT | COL | EN/CN | Tabular-LLM-Data | ✅ | | | | \ No newline at end of file diff --git a/configs/data_juicer_recipes/alpaca_cot/README_ZH.md b/configs/data_juicer_recipes/alpaca_cot/README_ZH.md index 9fe78b167..c482fdec2 100644 --- a/configs/data_juicer_recipes/alpaca_cot/README_ZH.md +++ b/configs/data_juicer_recipes/alpaca_cot/README_ZH.md @@ -57,58 +57,58 @@ python tools/process_data.py --config configs/data_juicer_recipes/alpaca_cot/alp - COL: 从其他数据集合成的数据集 #### Data-Juicer 元信息 -* Dataset: Alpaca-CoT 中的数据集 +* `Dataset`: Alpaca-CoT 中的数据集名称 +* `origin_path`: Alpaca-CoT 中的原始文件路径 -* Multi-round Dialog (MRD): 多轮对话数据集 +* `IFT`:标记为指导(Instruct)微调数据集 -* IFT: 指令微调数据集 +* `CFT`:标记为聊天(Chat)微调数据集 -* SFT: 有监督微调数据集 + * `CFT-SR`:标记为聊天类的单轮对话数据集 -* Preference: 偏好数据集 + * `CFT-MR`:标记为聊天类的多轮对话数据集 -* origin_path: Alpaca-CoT 中的原始文件路径 + * `CFT-P`:标记为偏好数据集 #### 完善的 Alpaca-CoT 数据集元信息 -| | 任务 | 产生方法 | 语言 | 数据集 | 多轮对话 | 指令跟随 | 监督微调 | 偏好 | -|:---------------------|:-------|:------|:-------|:---------------------|:---:|:---:|:----:|:----:| -| Chain-of-Thought | MT | HG | EN/CN | Chain-of-Thought | | ✅ | | | -| GPT4all | MT | COL | EN | GPT4all | | ✅ | ✅ | | -| GPTeacher | MT | SI | EN | GPTeacher | | | ✅ | | -| Guanaco | MT | SI | ML | Guanaco | | | ✅ | | -| HC3 | TS | MIX | EN/CN | HC3 | | | ✅ | ✅ | -| alpaca | MT | SI | EN | alpaca | | | ✅ | | -| Natural-Instructions | MT | COL | ML | Natural-Instructions | | ✅ | | | -| belle_cn | TS/MT | SI | CN | belle_cn | | | ✅ | | -| instinwild | MT | SI | EN/CN | instinwild | | | ✅ | | -| prosocial-dialog | TS | MIX | EN | prosocial-dialog | | | ✅ | | -| finance | TS | COL | EN | finance | | | ✅ | | -| xP3 | MT | COL | ML | xP3 | | ✅ | | | -| firefly | MT | COL | CN | firefly | | ✅ | | | -| instruct | MT | COL | EN | instruct | | | ✅ | | -| CodeAlpaca | TS | SI | EN | CodeAlpaca | | ✅ | | | -| alpacaGPT4 | MT | SI | EN/CN | alpacaGPT4 | | | ✅ | ✅ | -| webGPT | TS | MIX | EN | webGPT | | ✅ | | ✅ | -| dolly | TS | HG | EN | dolly | | | ✅ | | -| baize | MT | COL | EN | baize | | | ✅ | | -| hh-rlhf | TS | MIX | EN | hh-rlhf | ✅ | | ✅ | ✅ | -| OIG | MT | COL | EN | OIG | | | ✅ | | -| GAOKAO | MT | COL | CN | GAOKAO | | ✅ | | | -| camel | MT | SI | EN | camel | | ✅ | | | -| FLAN-Muffin | MT | COL | EN | FLAN-Muffin | | ✅ | | | -| COIG | MT | COL | CN | COIG | | | ✅ | | -| gpt4tools | MT | SI | EN | gpt4tools | | ✅ | | | -| ShareGPT | MT | MIX | EN | ShareGPT | ✅ | | ✅ | | -| Auto-CoT | MT | COL | EN | Auto-CoT | | ✅ | | | -| MOSS | TS | SI | EN/CN | MOSS | | | ✅ | | -| ultrachat | TS | SI | EN | ultrachat | | | ✅ | | -| Chinese-medical | TS | COL | CN | Chinese-medical | | | ✅ | | -| CSL | MT | COL | CN | CSL | | ✅ | | | -| pCLUE | MT | COL | CN | pCLUE | | ✅ | | | -| news_commentary | TS | COL | CN | news_commentary | | ✅ | | | -| StackExchange | MT | COL | EN | StackExchange | | | ✅ | ✅ | -| ConvAI2 | TS | HG | EN | ConvAI2 | | | ✅ | | -| FastChat | MT | SI | EN | FastChat | | | ✅ | | -| Tabular-LLM-Data | MT | COL | EN/CN | Tabular-LLM-Data | | ✅ | | | -| ThoughtSource | MT | COL | EN | ThoughtSource | | ✅ | | | \ No newline at end of file +| | 任务 | 产生方法 | 语言 | 数据集 | IFT | CFT-SR | CFT-MR | CFT-P | +|---------------------- |------- |---------- |------- |---------------------- |----- |-------- |-------- |-------- | +| Chain-of-Thought | MT | HG | EN/CN | Chain-of-Thought | ✅ | | | | +| GPT4all | MT | COL | EN | GPT4all | ✅ | ✅ | | | +| GPTeacher | MT | SI | EN | GPTeacher | | ✅ | | | +| Guanaco | MT | SI | ML | Guanaco | | ✅ | | | +| HC3 | TS | MIX | EN/CN | HC3 | | ✅ | | ✅ | +| alpaca | MT | SI | EN | alpaca | | ✅ | | | +| Natural-Instructions | MT | COL | ML | Natural-Instructions | ✅ | | | | +| belle_cn | TS/MT | SI | CN | belle_cn | | ✅ | | | +| instinwild | MT | SI | EN/CN | instinwild | | ✅ | | | +| prosocial-dialog | TS | MIX | EN | prosocial-dialog | | ✅ | | | +| finance | TS | COL | EN | finance | | ✅ | | | +| xP3 | MT | COL | ML | xP3 | ✅ | | | | +| firefly | MT | COL | CN | firefly | ✅ | | | | +| instruct | MT | COL | EN | instruct | | ✅ | | | +| CodeAlpaca | TS | SI | EN | CodeAlpaca | ✅ | | | | +| alpacaGPT4 | MT | SI | EN/CN | alpacaGPT4 | | ✅ | | ✅ | +| webGPT | TS | MIX | EN | webGPT | ✅ | | | ✅ | +| dolly | TS | HG | EN | dolly | | ✅ | | | +| baize | MT | COL | EN | baize | | ✅ | | | +| hh-rlhf | TS | MIX | EN | hh-rlhf | | ✅ | ✅ | ✅ | +| OIG | MT | COL | EN | OIG | | ✅ | | | +| GAOKAO | MT | COL | CN | GAOKAO | ✅ | | | | +| camel | MT | SI | EN | camel | ✅ | | | | +| FLAN-Muffin | MT | COL | EN | FLAN-Muffin | ✅ | | | | +| COIG | MT | COL | CN | COIG | | ✅ | | | +| gpt4tools | MT | SI | EN | gpt4tools | ✅ | | | | +| ShareGPT | MT | MIX | EN | ShareGPT | | ✅ | ✅ | | +| Auto-CoT | MT | COL | EN | Auto-CoT | ✅ | | | | +| MOSS | TS | SI | EN/CN | MOSS | | ✅ | | | +| ultrachat | TS | SI | EN | ultrachat | | ✅ | | | +| Chinese-medical | TS | COL | CN | Chinese-medical | | ✅ | | | +| CSL | MT | COL | CN | CSL | ✅ | | | | +| pCLUE | MT | COL | CN | pCLUE | ✅ | | | | +| news_commentary | TS | COL | CN | news_commentary | ✅ | | | | +| StackExchange | MT | COL | EN | StackExchange | | ✅ | | ✅ | +| ConvAI2 | TS | HG | EN | ConvAI2 | | ✅ | | | +| FastChat | MT | SI | EN | FastChat | | ✅ | | | +| Tabular-LLM-Data | MT | COL | EN/CN | Tabular-LLM-Data | ✅ | | | | \ No newline at end of file diff --git a/data_juicer/format/formatter.py b/data_juicer/format/formatter.py index a2cb14270..54acdc8a0 100644 --- a/data_juicer/format/formatter.py +++ b/data_juicer/format/formatter.py @@ -189,7 +189,7 @@ def unify_format( def non_empty_text(sample, target_keys): for target_key in target_keys: - # TODO: case for SFT, in which the len(sample[target_key]) == 0 + # TODO: case for CFT, in which the len(sample[target_key]) == 0 if sample[target_key] is None: # we filter out the samples contains at least None column # since the op can not handle it now diff --git a/demos/README.md b/demos/README.md index 67e3cc938..a45f4f510 100644 --- a/demos/README.md +++ b/demos/README.md @@ -23,7 +23,7 @@ streamlit run app.py - This demo analyzes and processes a dataset, providing a comparison of statistical information before and after the processing. - Data visualization diversity (`data_visualization_diversity`) - - This demo analyzes the verb-noun structure of the SFT dataset and plots its diversity in sunburst format. + - This demo analyzes the verb-noun structure of the CFT dataset and plots its diversity in sunburst format. - Data visualization op effect (`data_visualization_op_effect`) - This demo analyzes the statistics of dataset, and displays the effect of each Filter op by setting different thresholds. @@ -31,8 +31,8 @@ streamlit run app.py - Data visualization statistics (`data_visualization_statistics`) - This demo analyzes the dataset and obtain up to 13 statistics. -- Process SFT Chinese data (`process_sft_zh_data`) - - This demos analyzes and processes part of Chinese dataset in Alpaca-CoT to show how to process IFT or SFT data for LLM fine-tuning. +- Process CFT Chinese data (`process_cft_zh_data`) + - This demos analyzes and processes part of Chinese dataset in Alpaca-CoT to show how to process IFT or CFT data for LLM fine-tuning. - Process SCI data (`process_sci_data`) - This demos analyzes and processes part of arXiv dataset to show how to process scientific literature data for LLM pre-training. diff --git a/demos/README_ZH.md b/demos/README_ZH.md index da7b3f4a5..939232e39 100644 --- a/demos/README_ZH.md +++ b/demos/README_ZH.md @@ -23,7 +23,7 @@ streamlit run app.py - 该示例用来分析和处理数据集,并给出处理前后数据集的统计信息比对。 - 词法多样性可视化 (`data_visualization_diversity`) - - 该示例可以用来分析 SFT 数据集的动词-名词结构,并绘制成sunburst层级环形图表。 + - 该示例可以用来分析 CFT 数据集的动词-名词结构,并绘制成sunburst层级环形图表。 - 算子效果可视化 (`data_visualization_op_effect`) - 该示例可以分析数据集的统计信息,并根据这些统计信息可以显示出每个 `Filter` 算子在不同阈值下的效果。 @@ -31,7 +31,7 @@ streamlit run app.py - 统计信息可视化 (`data_visualization_statistics`) - 该示例可以分析数据集,并获得多达13种统计信息。 -- 处理 SFT 中文数据 (`process_sft_zh_data`) +- 处理 CFT 中文数据 (`process_cft_zh_data`) - 以 Alpaca-CoT 的部分中文数据为例,演示了 LLM 中指令跟随微调数据和有监督微调数据的分析和处理流程。 - 处理预训练科学文献类数据 (`process_sci_data`) diff --git a/demos/overview_scan/app.py b/demos/overview_scan/app.py index 10e97786b..064e65240 100644 --- a/demos/overview_scan/app.py +++ b/demos/overview_scan/app.py @@ -27,7 +27,7 @@ - **Data-in-the-loop**: Allowing detailed data analyses with an automated report generation feature for a deeper understanding of your dataset. Coupled with timely multi-dimension automatic evaluation capabilities, it supports a feedback loop at multiple stages in the LLM development process. -- **Comprehensive Processing Recipes**: Offering tens of `pre-built data processing recipes` for pre-training, SFT, en, zh, and more scenarios. +- **Comprehensive Processing Recipes**: Offering tens of `pre-built data processing recipes` for pre-training, CFT, en, zh, and more scenarios. - **User-Friendly Experience**: Designed for simplicity, with `comprehensive documentation`, `easy start guides` and `demo configs`, and intuitive configuration with simple adding/removing OPs from existing configs. @@ -305,7 +305,7 @@ def show_yaml(config_file): show_yaml(config_dict[selected]) with tab3: label = 'Data-Juicer have refined some open source datasets \ - (including SFT datasets) by using Data-Juicer and have \ + (including CFT datasets) by using Data-Juicer and have \ provided configuration files for the refine flow.' config_files = Path( diff --git a/demos/process_sft_zh_data/app.py b/demos/process_cft_zh_data/app.py similarity index 98% rename from demos/process_sft_zh_data/app.py rename to demos/process_cft_zh_data/app.py index 827061376..85c36ec43 100644 --- a/demos/process_sft_zh_data/app.py +++ b/demos/process_cft_zh_data/app.py @@ -19,7 +19,7 @@ This dataset is usually used to fine-tune a Large Language Model. -The whole dataset is available [here](https://dail-wlcb.oss-cn-wulanchabu.aliyuncs.com/LLM_data/our_refined_datasets/SFT/alpaca-cot-zh-refine_result.jsonl) (About 18.7GB). +The whole dataset is available [here](https://dail-wlcb.oss-cn-wulanchabu.aliyuncs.com/LLM_data/our_refined_datasets/CFT/alpaca-cot-zh-refine_result.jsonl) (About 18.7GB). ## Dataset Information @@ -64,8 +64,8 @@ | subset | #samples before | #samples after | keep ratio |data link | source | |----------------------|:---------------------------:|:--------------:|:----------:|--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|-------------------------| -| Alpaca-Cot EN | 136,219,879 | 72,855,345 | 54.48% | [Aliyun](https://dail-wlcb.oss-cn-wulanchabu.aliyuncs.com/LLM_data/our_refined_datasets/SFT/alpaca-cot-en-refine_result.jsonl)
[ModelScope](https://modelscope.cn/datasets/Data-Juicer/alpaca-cot-en-refined-by-data-juicer/summary) | [39 Subsets of Alpaca-CoT](alpaca_cot/README.md#refined-alpaca-cot-dataset-meta-info) | -| Alpaca-Cot ZH | 21,197,246 | 9,873,214 | 46.58% | [Aliyun](https://dail-wlcb.oss-cn-wulanchabu.aliyuncs.com/LLM_data/our_refined_datasets/SFT/alpaca-cot-zh-refine_result.jsonl)
[ModelScope](https://modelscope.cn/datasets/Data-Juicer/alpaca-cot-zh-refined-by-data-juicer/summary) | [28 Subsets of Alpaca-CoT](alpaca_cot/README.md#refined-alpaca-cot-dataset-meta-info) | +| Alpaca-Cot EN | 136,219,879 | 72,855,345 | 54.48% | [Aliyun](https://dail-wlcb.oss-cn-wulanchabu.aliyuncs.com/LLM_data/our_refined_datasets/CFT/alpaca-cot-en-refine_result.jsonl)
[ModelScope](https://modelscope.cn/datasets/Data-Juicer/alpaca-cot-en-refined-by-data-juicer/summary) | [39 Subsets of Alpaca-CoT](alpaca_cot/README.md#refined-alpaca-cot-dataset-meta-info) | +| Alpaca-Cot ZH | 21,197,246 | 9,873,214 | 46.58% | [Aliyun](https://dail-wlcb.oss-cn-wulanchabu.aliyuncs.com/LLM_data/our_refined_datasets/CFT/alpaca-cot-zh-refine_result.jsonl)
[ModelScope](https://modelscope.cn/datasets/Data-Juicer/alpaca-cot-zh-refined-by-data-juicer/summary) | [28 Subsets of Alpaca-CoT](alpaca_cot/README.md#refined-alpaca-cot-dataset-meta-info) | ''' diff --git a/demos/process_cft_zh_data/data/alpaca-cot.jsonl b/demos/process_cft_zh_data/data/alpaca-cot.jsonl new file mode 100644 index 000000000..16b2cc4c3 --- /dev/null +++ b/demos/process_cft_zh_data/data/alpaca-cot.jsonl @@ -0,0 +1,11 @@ +{"instruction":"2017年5月24日,Lajunen与来自莫斯科斯巴达克的KHL签订了一份为期一年的合同。 Question: 2017年5月24日,Lajunen与来自莫斯科斯巴达克的KHL签订了为期一年的合同。 True or False?","input":"","output":"True","meta":{"Dataset":"xP3","Gen":"COL","IFT":true,"Lang":"ML", "CFT-MR":false, "CFT-P":false, "CFT-SR":false,"Task":"MT","origin_path":"Alpaca-CoT\/xP3\/zh\/merged_zh.jsonl"},"text":"2017年5月24日,Lajunen与来自莫斯科斯巴达克的KHL签订了一份为期一年的合同。 Question: 2017年5月24日,Lajunen与来自莫斯科斯巴达克的KHL签订了为期一年的合同。 True or False? True"} +{"instruction":"撰寫一段ASCII圖示,表達心情思緒洶湧,創意像潮水般湧入腦海。","input":"","output":"\\ | \\\/\n \\ || \\\/\n \\ |||\\\/\n \\ ||| \\\/\n \\ ||| \\\/\n \\ | \\\/\n \\ | \\\/\n \\\/------------- | ----------------\\\n | | |\n \\\/----------- | ------------- |\n | \\ | \\ |\n | \\ \\\/----- | \\ \\ |\n \\ \\ \\\/ | \\\/ \\ |\n \\ \\\/ | | \\\/ | \\ |\n \\\\\/ | | | \\\/ \\|\n \\ \\\/ | \\\/ \\ | |\n \\\/ | | \\\/ | \\ |\n | \\\/ | \\ | |\n |\\\/ \\ \\ | |\n | \\ \\| |\n | \\ | |\n | \\ | \\\/\n | \\ |\\\/\n | \\ \\\/\n | \\ |\\\/\n | \\ \\\/\n | \\\\\/","meta":{"Dataset":"Guanaco","Gen":"SI","IFT":false,"Lang":"ML", "CFT-MR":false, "CFT-P":false, "CFT-SR":true,"Task":"MT","origin_path":"Alpaca-CoT\\\/Guanaco\\\/GuanacoDataset.jsonl"},"text":"撰寫一段ASCII圖示,表達心情思緒洶湧,創意像潮水般湧入腦海。 \\ | \\\/\n \\ || \\\/\n \\ |||\\\/\n \\ ||| \\\/\n \\ ||| \\\/\n \\ | \\\/\n \\ | \\\/\n \\\/------------- | ----------------\\\n | | |\n \\\/----------- | ------------- |\n | \\ | \\ |\n | \\ \\\/----- | \\ \\ |\n \\ \\ \\\/ | \\\/ \\ |\n \\ \\\/ | | \\\/ | \\ |\n \\\\\/ | | | \\\/ \\|\n \\ \\\/ | \\\/ \\ | |\n \\\/ | | \\\/ | \\ |\n | \\\/ | \\ | |\n |\\\/ \\ \\ | |\n | \\ \\| |\n | \\ | |\n | \\ | \\\/\n | \\ |\\\/\n | \\ \\\/\n | \\ |\\\/\n | \\ \\\/\n | \\\\\/"} +{"instruction":"橙色","input":"","output":"好的,我给你画一张橙色的风筝图,如下所示:\n\n```\n \\\/\\\n \\\/ \\\n \\\/ \\\n \\\/ \\\n \\\/ \\\n \\\/ \\\n \\\/ \\\n \\\/ \\\n \\\/ \\\n \\\/ \\\n \\ \\\/\n \\ \\\/\n \\ \\\/\n \\ \\\/\n \\ \\\/\n \\ \\\/\n \\ \\\/\n \\ \\\/\n \\ \\\/\n \\\\\/\n```","meta":{"Dataset":"MOSS","Gen":"SI","IFT":false,"Lang":"EN\/CN", "CFT-MR":false, "CFT-P":false, "CFT-SR":true,"Task":"TS","origin_path":"Alpaca-CoT\\\/MOSS\\\/moss-002-sft\\\/zh_helpfulness.jsonl"},"text":"橙色 好的,我给你画一张橙色的风筝图,如下所示:\n\n```\n \\\/\\\n \\\/ \\\n \\\/ \\\n \\\/ \\\n \\\/ \\\n \\\/ \\\n \\\/ \\\n \\\/ \\\n \\\/ \\\n \\\/ \\\n \\ \\\/\n \\ \\\/\n \\ \\\/\n \\ \\\/\n \\ \\\/\n \\ \\\/\n \\ \\\/\n \\ \\\/\n \\ \\\/\n \\\\\/\n```"} +{"instruction":"好的!","input":"","output":"好极了!","meta":{"Dataset":"MOSS","Gen":"SI","IFT":false,"Lang":"EN\/CN", "CFT-MR":false, "CFT-P":false, "CFT-SR":true,"Task":"TS","origin_path":"Alpaca-CoT\/MOSS\/moss-002-sft\/zh_helpfulness.jsonl"},"text":"好的! 好极了!"} +{"instruction":"退下","input":"","output":"再见!","meta":{"Dataset":"MOSS","Gen":"SI","IFT":false,"Lang":"EN\/CN", "CFT-MR":false, "CFT-P":false, "CFT-SR":true,"Task":"TS","origin_path":"Alpaca-CoT\/MOSS\/moss-002-sft\/zh_helpfulness.jsonl"},"text":"退下 再见!"} +{"instruction":"保重","input":"","output":"保重!","meta":{"Dataset":"MOSS","Gen":"SI","IFT":false,"Lang":"EN\/CN", "CFT-MR":false, "CFT-P":false, "CFT-SR":true,"Task":"TS","origin_path":"Alpaca-CoT\/MOSS\/moss-002-sft\/zh_helpfulness.jsonl"},"text":"保重 保重!"} +{"instruction":"这些观点有哪些?","input":"","output":"基于对文章的分析,这篇文章提出了以下几点观点:1、xxx;2、xxx;3、xxx;4、xxx;5、xxx。","meta":{"Dataset":"MOSS","Gen":"SI","IFT":false,"Lang":"EN\/CN", "CFT-MR":false, "CFT-P":false, "CFT-SR":true,"Task":"TS","origin_path":"Alpaca-CoT\/MOSS\/moss-002-sft\/zh_helpfulness.jsonl"},"text":"这些观点有哪些? 基于对文章的分析,这篇文章提出了以下几点观点:1、xxx;2、xxx;3、xxx;4、xxx;5、xxx。"} +{"instruction":"为一组电影列表添加与电影类型相关的标签。","input":"某个电影推荐网站的前100名电影列表,包括电影名称和类型。","output":"添加标签:\n\n1. 动作片:XXX、XXX、XXX...\n2. 喜剧片:XXX、XXX、XXX...\n3. 科幻片:XXX、XXX、XXX...\n4. 恐怖片:XXX、XXX、XXX...\n5. 爱情片:XXX、XXX、XXX...\n6. 剧情片:XXX、XXX、XXX...\n7. 纪录片:XXX、XXX、XXX...\n8. 动画片:XXX、XXX、XXX...\n9. 战争片:XXX、XXX、XXX...\n10. 悬疑片:XXX、XXX、XXX...","meta":{"Dataset":"belle_cn","Gen":"SI","IFT":false,"Lang":"CN", "CFT-MR":false, "CFT-P":false, "CFT-SR":true,"Task":"TS\/MT","origin_path":"Alpaca-CoT\/belle_cn\/belle_instructions\/belle_data1M_cn.jsonl"},"text":"为一组电影列表添加与电影类型相关的标签。 某个电影推荐网站的前100名电影列表,包括电影名称和类型。 添加标签:\n\n1. 动作片:XXX、XXX、XXX...\n2. 喜剧片:XXX、XXX、XXX...\n3. 科幻片:XXX、XXX、XXX...\n4. 恐怖片:XXX、XXX、XXX...\n5. 爱情片:XXX、XXX、XXX...\n6. 剧情片:XXX、XXX、XXX...\n7. 纪录片:XXX、XXX、XXX...\n8. 动画片:XXX、XXX、XXX...\n9. 战争片:XXX、XXX、XXX...\n10. 悬疑片:XXX、XXX、XXX..."} +{"instruction":"磷","input":"","output":"磷","meta":{"Dataset":"ShareGPT","Gen":"MIX","IFT":false,"Lang":"EN", "CFT-MR":true, "CFT-P":false, "CFT-SR":true,"Task":"MT","origin_path":"Alpaca-CoT\/ShareGPT\/sharegpt_zh.jsonl"},"text":"磷 磷"} +{"instruction":"酶","input":"","output":"酶","meta":{"Dataset":"ShareGPT","Gen":"MIX","IFT":false,"Lang":"EN", "CFT-MR":true, "CFT-P":false, "CFT-SR":true,"Task":"MT","origin_path":"Alpaca-CoT\/ShareGPT\/sharegpt_zh.jsonl"},"text":"酶 酶"} +{"instruction":"输出一个正方形","input":"","output":"","meta":{"Dataset":"Guanaco","Gen":"SI","IFT":false,"Lang":"ML", "CFT-MR":false, "CFT-P":false, "CFT-SR":true,"Task":"MT","origin_path":"Alpaca-CoT\/Guanaco\/GuanacoDataset.jsonl"},"text":"输出一个正方形 "} \ No newline at end of file diff --git a/demos/process_code_data/app.py b/demos/process_code_data/app.py index c947e3200..ddfaedc08 100644 --- a/demos/process_code_data/app.py +++ b/demos/process_code_data/app.py @@ -64,8 +64,8 @@ | subset | #samples before | #samples after | keep ratio |data link | source | |----------------------|:---------------------------:|:--------------:|:----------:|--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|-------------------------| -| Alpaca-Cot EN | 136,219,879 | 72,855,345 | 54.48% | [Aliyun](https://dail-wlcb.oss-cn-wulanchabu.aliyuncs.com/LLM_data/our_refined_datasets/SFT/alpaca-cot-en-refine_result.jsonl)
[ModelScope](https://modelscope.cn/datasets/Data-Juicer/alpaca-cot-en-refined-by-data-juicer/summary) | [39 Subsets of Alpaca-CoT](alpaca_cot/README.md#refined-alpaca-cot-dataset-meta-info) | -| Alpaca-Cot ZH | 21,197,246 | 9,873,214 | 46.58% | [Aliyun](https://dail-wlcb.oss-cn-wulanchabu.aliyuncs.com/LLM_data/our_refined_datasets/SFT/alpaca-cot-zh-refine_result.jsonl)
[ModelScope](https://modelscope.cn/datasets/Data-Juicer/alpaca-cot-zh-refined-by-data-juicer/summary) | [28 Subsets of Alpaca-CoT](alpaca_cot/README.md#refined-alpaca-cot-dataset-meta-info) | +| Alpaca-Cot EN | 136,219,879 | 72,855,345 | 54.48% | [Aliyun](https://dail-wlcb.oss-cn-wulanchabu.aliyuncs.com/LLM_data/our_refined_datasets/CFT/alpaca-cot-en-refine_result.jsonl)
[ModelScope](https://modelscope.cn/datasets/Data-Juicer/alpaca-cot-en-refined-by-data-juicer/summary) | [39 Subsets of Alpaca-CoT](alpaca_cot/README.md#refined-alpaca-cot-dataset-meta-info) | +| Alpaca-Cot ZH | 21,197,246 | 9,873,214 | 46.58% | [Aliyun](https://dail-wlcb.oss-cn-wulanchabu.aliyuncs.com/LLM_data/our_refined_datasets/CFT/alpaca-cot-zh-refine_result.jsonl)
[ModelScope](https://modelscope.cn/datasets/Data-Juicer/alpaca-cot-zh-refined-by-data-juicer/summary) | [28 Subsets of Alpaca-CoT](alpaca_cot/README.md#refined-alpaca-cot-dataset-meta-info) | ''' diff --git a/demos/process_sci_data/app.py b/demos/process_sci_data/app.py index a3696ea97..c98141851 100644 --- a/demos/process_sci_data/app.py +++ b/demos/process_sci_data/app.py @@ -64,8 +64,8 @@ | subset | #samples before | #samples after | keep ratio |data link | source | |----------------------|:---------------------------:|:--------------:|:----------:|--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|-------------------------| -| Alpaca-Cot EN | 136,219,879 | 72,855,345 | 54.48% | [Aliyun](https://dail-wlcb.oss-cn-wulanchabu.aliyuncs.com/LLM_data/our_refined_datasets/SFT/alpaca-cot-en-refine_result.jsonl)
[ModelScope](https://modelscope.cn/datasets/Data-Juicer/alpaca-cot-en-refined-by-data-juicer/summary) | [39 Subsets of Alpaca-CoT](alpaca_cot/README.md#refined-alpaca-cot-dataset-meta-info) | -| Alpaca-Cot ZH | 21,197,246 | 9,873,214 | 46.58% | [Aliyun](https://dail-wlcb.oss-cn-wulanchabu.aliyuncs.com/LLM_data/our_refined_datasets/SFT/alpaca-cot-zh-refine_result.jsonl)
[ModelScope](https://modelscope.cn/datasets/Data-Juicer/alpaca-cot-zh-refined-by-data-juicer/summary) | [28 Subsets of Alpaca-CoT](alpaca_cot/README.md#refined-alpaca-cot-dataset-meta-info) | +| Alpaca-Cot EN | 136,219,879 | 72,855,345 | 54.48% | [Aliyun](https://dail-wlcb.oss-cn-wulanchabu.aliyuncs.com/LLM_data/our_refined_datasets/CFT/alpaca-cot-en-refine_result.jsonl)
[ModelScope](https://modelscope.cn/datasets/Data-Juicer/alpaca-cot-en-refined-by-data-juicer/summary) | [39 Subsets of Alpaca-CoT](alpaca_cot/README.md#refined-alpaca-cot-dataset-meta-info) | +| Alpaca-Cot ZH | 21,197,246 | 9,873,214 | 46.58% | [Aliyun](https://dail-wlcb.oss-cn-wulanchabu.aliyuncs.com/LLM_data/our_refined_datasets/CFT/alpaca-cot-zh-refine_result.jsonl)
[ModelScope](https://modelscope.cn/datasets/Data-Juicer/alpaca-cot-zh-refined-by-data-juicer/summary) | [28 Subsets of Alpaca-CoT](alpaca_cot/README.md#refined-alpaca-cot-dataset-meta-info) | ''' diff --git a/demos/process_sft_zh_data/data/alpaca-cot.jsonl b/demos/process_sft_zh_data/data/alpaca-cot.jsonl deleted file mode 100644 index cfe1ae087..000000000 --- a/demos/process_sft_zh_data/data/alpaca-cot.jsonl +++ /dev/null @@ -1,50 +0,0 @@ -{"instruction":"部分的台湾渔民认为民进党政府在南海问题上的态度不够强硬。\n\n从台湾屏东出发的这四艘渔船,经过了6天的航行,但是原先台湾官方以“没有事先申请”为由一直没有松口确认是否允许渔民登岸。\n\n周一(25日),台湾主管此类事务的海巡署说,渔民登上太平岛码头是“没有问题”的。\n\n但是其中一艘搭载了凤凰卫视记者的渔船,为了“避免将此次行动染红”的原因,将不会停靠太平岛。\n\n台湾的媒体报道说,这艘名为“海吉利号”渔船的船长对此表示失望,不过凤凰卫视被许多台湾民众视为“中国媒体”,此外按照台湾的法律,中国公民不能进入太平岛这类的军事管制区域。\n\n在传出有凤凰卫视的记者随行之后,渔民们的“主权宣示”行动也受到了批评,并且被指责是与中国联手、把台湾的主权“交到了中国手上”。\n\n参与“主权宣示”的渔船则说,他们的目的是证明太平岛上有足够的淡水,并用这次的行动表达对海牙国际仲裁法庭先前裁决的不满。\n\n南沙群岛中的太平岛是台湾在南海所控制的最大岛屿,岛上驻扎有海巡署人员,该岛在前不久的国际仲裁法庭裁决书中被形容为“礁”,引发台湾方面的愤怒反应。\n\n这次渔船前往太平岛之前,也传出参与的人员受到政府相关部门的“关切”,希望他们打消预备举行的活动。\n\n在野的国民党当时批评说,民进党政府因为害怕美国的反应,故而使用不同的办法试图劝阻渔船去南海“宣示主权”。\n\n \\n\\nGive me a good title for the article above.","input":"","output":"“宣示主权”的台湾渔船抵达南海太平岛","meta":{"Dataset":"xP3","Gen":"COL","IFT":true,"Lang":"ML","Multi-round Dialog":false,"Preference":false,"SFT":false,"Task":"MT","origin_path":"Alpaca-CoT\/xP3\/zh\/merged_zh.jsonl"},"text":"部分的台湾渔民认为民进党政府在南海问题上的态度不够强硬。\n\n从台湾屏东出发的这四艘渔船,经过了6天的航行,但是原先台湾官方以“没有事先申请”为由一直没有松口确认是否允许渔民登岸。\n\n周一(25日),台湾主管此类事务的海巡署说,渔民登上太平岛码头是“没有问题”的。\n\n但是其中一艘搭载了凤凰卫视记者的渔船,为了“避免将此次行动染红”的原因,将不会停靠太平岛。\n\n台湾的媒体报道说,这艘名为“海吉利号”渔船的船长对此表示失望,不过凤凰卫视被许多台湾民众视为“中国媒体”,此外按照台湾的法律,中国公民不能进入太平岛这类的军事管制区域。\n\n在传出有凤凰卫视的记者随行之后,渔民们的“主权宣示”行动也受到了批评,并且被指责是与中国联手、把台湾的主权“交到了中国手上”。\n\n参与“主权宣示”的渔船则说,他们的目的是证明太平岛上有足够的淡水,并用这次的行动表达对海牙国际仲裁法庭先前裁决的不满。\n\n南沙群岛中的太平岛是台湾在南海所控制的最大岛屿,岛上驻扎有海巡署人员,该岛在前不久的国际仲裁法庭裁决书中被形容为“礁”,引发台湾方面的愤怒反应。\n\n这次渔船前往太平岛之前,也传出参与的人员受到政府相关部门的“关切”,希望他们打消预备举行的活动。\n\n在野的国民党当时批评说,民进党政府因为害怕美国的反应,故而使用不同的办法试图劝阻渔船去南海“宣示主权”。\n\n \\n\\nGive me a good title for the article above. “宣示主权”的台湾渔船抵达南海太平岛"} -{"instruction":"2017年5月24日,Lajunen与来自莫斯科斯巴达克的KHL签订了一份为期一年的合同。 Question: 2017年5月24日,Lajunen与来自莫斯科斯巴达克的KHL签订了为期一年的合同。 True or False?","input":"","output":"True","meta":{"Dataset":"xP3","Gen":"COL","IFT":true,"Lang":"ML","Multi-round Dialog":false,"Preference":false,"SFT":false,"Task":"MT","origin_path":"Alpaca-CoT\/xP3\/zh\/merged_zh.jsonl"},"text":"2017年5月24日,Lajunen与来自莫斯科斯巴达克的KHL签订了一份为期一年的合同。 Question: 2017年5月24日,Lajunen与来自莫斯科斯巴达克的KHL签订了为期一年的合同。 True or False? True"} -{"instruction":"Content: 李和平是中國知名的維權律師。在2015年\"709大抓捕\"案中,李和平同北京鋒鋭律師事務所負責人周世鋒、律師王全璋等,以涉嫌\"顛覆國家政權罪\"被批捕。\n\n圍繞此案有很多爭議。判處緩刑後,當局沒有立即放人,而是通知一直在獄外抗爭呼籲的李妻,去天津接人團聚,被李妻拒絶,要求先放人回家再說。因為此前發生過同案的其他人被取保釋放,但本人和家屬被一起隔絶,無法和外界接觸發聲,公眾無從得知當事人被長期羈押期間發生了什麼,以及控辯雙方的交易情況。\n\n另外關於判決書指控的李和平\"利用境外資金,插手炒作熱點案件\",網上也議論紛紛。有人貼出中國最高法院出版的《刑事審判參考》第101集,上面赫然刊登一文,說最高法院申請到英國外交部的\"人權與民主\"項目資助,開展兩年的\"非法證據排除制度\"研究,並於2013年、2014年兩次組織法官訪問團去英國考察,發佈報告。\n\n利用境外資金從事法律研究和活動,在過去30年的司法實踐中已是常態。從最高法院申請的英國資助項目,到美國福特基金在全國許多高校的運作,看不出李和平同瑞慈基金合作推動反酷刑與前述行為有何區別,違反了哪條法律規定。更有意思的是,有律師指出曾在遼源市公安局辦案時,在大廳展示牌發現該局竟然也與瑞慈基金合作過,項目就是反酷刑。\n\n此案最大的爭議還在最後判決的有期徒刑3年,緩刑4年。李和平已被羈押近兩年,再有一年多,就滿3年刑期。現在雖被釋放,但還有四年的緩刑考驗,隨時可能以違規收監。此前另一案的著名律師浦志強,也是在罪名一再變更後,最後以煽動民族仇恨、尋釁滋事罪被判處3年刑期,緩刑3年。當時他已經被羈押近兩年。\n\n這些緩刑說他們無罪吧,不可能,已被羈押很長時間,如果無罪釋放,涉及到警方的責任、申請賠償等,很麻煩。重判吧,有難度,要依法條,有證據,應對輿論壓力。最後判緩刑釋放,還是有罪,已經坐的牢有效,但現在人出來了,以後態度好,不對抗,也不再執行。\n\n這是帶有政治影響的案子,其他純粹的刑事案、經濟案,當事人在被長期羈押後,既不容許取保候審,也不無罪釋放,就是判處緩刑後再放人,讓你沒法申訴追責。比如著名的天津街頭擺氣球射擊攤的大媽,長期羈押後,一審被以非法持槍判刑3年半。驚動輿論後,二審維持有罪,但改判刑3年、緩刑3年,當庭釋放。\n\n緩刑的目的在於:一是確定被告人有罪;二是基於被告人的犯罪事實、社會危害程度並考慮特別預防之目的,有條件地不執行刑罰。但在司法實踐中,緩刑制度已被出於各種目的而濫用,存在許多問題。比如:判決前長期的強制羈押,成為控方摧毀辯方和家屬意志的有力武器;將緩刑作為訴辯交易放人籌碼的做法,嚴重侵害了司法的公平公正;緩刑掩蓋了案件存在的事實和證據瑕疵,模糊有罪與無罪的界限;以緩刑放人做誘惑,迫使被告認罪、態度好、不上訴,被迫喪失理應享有的辯護權。\n\n緩刑的立法出發點是好的,是司法寬嚴並重,既體現法律威嚴,又對罪行較輕、危害不大的嫌疑人的一種懲戒與悔改機制。但在中國先行羈押的現狀下,緩刑制度卻釋放出巨大的破壞力,侵蝕著訴訟法確立的辯護權、平等對抗和司法公平原則,維護著司法機關彼此間說不清道不明的共同利益。許多緩刑後面,都玄機重重。對此上海執業律師洪流撰文,認為緩刑更像是一塊五彩斑斕的遮羞布,將一些法庭上見不得人的東西漂亮地掩蓋起來。\n\n(注:上述文章不代表英國廣播公司BBC的立場和觀點)\n\n\\nThe previous content can be summarized as follows:","input":"","output":"2015年7月開始的對大陸維權律師的抓捕,即709事件,最近又有變化。其中引人關注的律師李和平顛覆國家政權案,天津法院公開宣判,判處李有期徒刑3年,緩刑4年,剝奪政治權利四年。雖然是公開宣判,但法院以李和平案涉及國家秘密為由,此前進行的是不公開審理。","meta":{"Dataset":"xP3","Gen":"COL","IFT":true,"Lang":"ML","Multi-round Dialog":false,"Preference":false,"SFT":false,"Task":"MT","origin_path":"Alpaca-CoT\/xP3\/zh\/merged_zh.jsonl"},"text":"Content: 李和平是中國知名的維權律師。在2015年\"709大抓捕\"案中,李和平同北京鋒鋭律師事務所負責人周世鋒、律師王全璋等,以涉嫌\"顛覆國家政權罪\"被批捕。\n\n圍繞此案有很多爭議。判處緩刑後,當局沒有立即放人,而是通知一直在獄外抗爭呼籲的李妻,去天津接人團聚,被李妻拒絶,要求先放人回家再說。因為此前發生過同案的其他人被取保釋放,但本人和家屬被一起隔絶,無法和外界接觸發聲,公眾無從得知當事人被長期羈押期間發生了什麼,以及控辯雙方的交易情況。\n\n另外關於判決書指控的李和平\"利用境外資金,插手炒作熱點案件\",網上也議論紛紛。有人貼出中國最高法院出版的《刑事審判參考》第101集,上面赫然刊登一文,說最高法院申請到英國外交部的\"人權與民主\"項目資助,開展兩年的\"非法證據排除制度\"研究,並於2013年、2014年兩次組織法官訪問團去英國考察,發佈報告。\n\n利用境外資金從事法律研究和活動,在過去30年的司法實踐中已是常態。從最高法院申請的英國資助項目,到美國福特基金在全國許多高校的運作,看不出李和平同瑞慈基金合作推動反酷刑與前述行為有何區別,違反了哪條法律規定。更有意思的是,有律師指出曾在遼源市公安局辦案時,在大廳展示牌發現該局竟然也與瑞慈基金合作過,項目就是反酷刑。\n\n此案最大的爭議還在最後判決的有期徒刑3年,緩刑4年。李和平已被羈押近兩年,再有一年多,就滿3年刑期。現在雖被釋放,但還有四年的緩刑考驗,隨時可能以違規收監。此前另一案的著名律師浦志強,也是在罪名一再變更後,最後以煽動民族仇恨、尋釁滋事罪被判處3年刑期,緩刑3年。當時他已經被羈押近兩年。\n\n這些緩刑說他們無罪吧,不可能,已被羈押很長時間,如果無罪釋放,涉及到警方的責任、申請賠償等,很麻煩。重判吧,有難度,要依法條,有證據,應對輿論壓力。最後判緩刑釋放,還是有罪,已經坐的牢有效,但現在人出來了,以後態度好,不對抗,也不再執行。\n\n這是帶有政治影響的案子,其他純粹的刑事案、經濟案,當事人在被長期羈押後,既不容許取保候審,也不無罪釋放,就是判處緩刑後再放人,讓你沒法申訴追責。比如著名的天津街頭擺氣球射擊攤的大媽,長期羈押後,一審被以非法持槍判刑3年半。驚動輿論後,二審維持有罪,但改判刑3年、緩刑3年,當庭釋放。\n\n緩刑的目的在於:一是確定被告人有罪;二是基於被告人的犯罪事實、社會危害程度並考慮特別預防之目的,有條件地不執行刑罰。但在司法實踐中,緩刑制度已被出於各種目的而濫用,存在許多問題。比如:判決前長期的強制羈押,成為控方摧毀辯方和家屬意志的有力武器;將緩刑作為訴辯交易放人籌碼的做法,嚴重侵害了司法的公平公正;緩刑掩蓋了案件存在的事實和證據瑕疵,模糊有罪與無罪的界限;以緩刑放人做誘惑,迫使被告認罪、態度好、不上訴,被迫喪失理應享有的辯護權。\n\n緩刑的立法出發點是好的,是司法寬嚴並重,既體現法律威嚴,又對罪行較輕、危害不大的嫌疑人的一種懲戒與悔改機制。但在中國先行羈押的現狀下,緩刑制度卻釋放出巨大的破壞力,侵蝕著訴訟法確立的辯護權、平等對抗和司法公平原則,維護著司法機關彼此間說不清道不明的共同利益。許多緩刑後面,都玄機重重。對此上海執業律師洪流撰文,認為緩刑更像是一塊五彩斑斕的遮羞布,將一些法庭上見不得人的東西漂亮地掩蓋起來。\n\n(注:上述文章不代表英國廣播公司BBC的立場和觀點)\n\n\\nThe previous content can be summarized as follows: 2015年7月開始的對大陸維權律師的抓捕,即709事件,最近又有變化。其中引人關注的律師李和平顛覆國家政權案,天津法院公開宣判,判處李有期徒刑3年,緩刑4年,剝奪政治權利四年。雖然是公開宣判,但法院以李和平案涉及國家秘密為由,此前進行的是不公開審理。"} -{"instruction":"Title: 肺炎疫情:被病毒海啸淹没的五件国际大事\\nGiven the above title of an imaginary article, imagine the article.\\n","input":"","output":"2019年那些举世瞩目的大事有什么新进展?2020年还在发生、又将出现哪些大事?\n\nBBC为你盘点一些疫情中被“忽视”的大事。看看你错过了哪些。 \n\n英国脱欧过渡期大限是2020年年底\n\n英国脱欧\n\nBBC欧洲事务主编埃德勒(Katya Adler)\n\n在英国,过去三年中脱欧话题几乎主宰一切,现在让位给了新冠病毒。\n\n尽管首相因感染住院并接受重症监护,尽管英国和欧盟首席谈判官员均因疑似感染不久前刚结束自我隔离,唐宁街10号坚持说,脱欧将按既定时间表继续进行。\n\n1月31日英国正式脱离欧盟,现在处于过渡期。过渡期2020年12月31日结束,期间英国与欧盟关系依旧,谈判未来如何相处。\n\n英国政府表示,到今年年底,欧盟与英国必须达成贸易协议。即使没做到,英国也不会延长过渡期。\n\n过渡期的宗旨是最大程度地减少脱欧对英国和欧盟商业与人员流动的干扰。\n\n过渡期可以延长一到两年,欧盟认为,基于目前形势,延长是合理选项。\n\n迄今为止,英国与欧盟之间只进行一轮谈判。上周双方通过视频复会,均表示将尽最大努力争取进展。但是,时间仍在一天天流逝。\n\n布鲁塞尔质疑,英国和欧盟的企业已经备受新冠病毒骚扰,到年底真要再来一场巨大的变动?不管心里怎么想,欧盟领导人不会正式请求英国延长过渡期。\n\n欧盟说了,紧迫的时间表是英国首相约翰逊决定的,如果要延长,伦敦必须自己提出申请。\n\n叙利亚战乱进入第十个年头,三月出现第一起新冠死亡病例\n\n叙利亚停火\n\nBBC首席国际事务记者杜赛特(Lyse Ducet)\n\n叙利亚西北部伊德利卜省是反叛武装的最后一个根据地,3月5日几乎一夜之间就达成了停火协议。\n\n停火能坚持到现在出乎许多人意料。全球政策中心的哈桑(Hassan Hassan)形容,给了人们一个喘息机会的停火协议目前是“悬于一线、但至少线还没断”。\n\n叙利亚战争已经持续九年多,近期叙利亚政府军和土耳其军队在伊德利卜爆发正面冲突,俄国军队也参与打击行动。俄罗斯总统普京3月5日在莫斯科与到访的土耳其总统埃尔多安会谈,就伊德利卜停火达成了协议。\n\n但是,在这个喘息的空档伊德利卜又要去面对一个新敌人。经历长年战乱,该地区满目疮痍, 医保设施遭受严重破坏, 流离失所的人和难民生活在特别危险的条件下,对新冠病毒没有有效的防御手段。\n\n联合国叙利亚问题特使裴凯儒(Geir Pedersen)最近告诉安理会,面对疫情,叙利亚比任何时候都更需要全面、立即停火。 \n\n现在,叙利亚战事的“发言权”掌握在支持对立力量的俄国和土耳其手中。\n\n国际危机组织的高级分析师卡利法(Dareen Khalifa)认为,土耳其和俄罗斯并不相信停火协议能长久坚持去,因为“一些关键问题没有解决”。\n\n谁能预测11月投票日美国选民的心态?\n\n美国大选\n\nBBC北美事务记者祖克尔(Anthony Zurcher)\n\n谁将对决特朗普?将近一个月,民主党候选人提名竞选深度冻结。前副总统拜登初选中占据明显优势,但是一度曾被视作领跑人的桑德斯拒绝退出。\n\n与此同时,迫于疫情,美国各州一个接一个地推迟初选。拜登、桑德斯均停止拉票,仅在家中发布视频声明、接受采访。\n\n这一切都变了,桑德斯已经表态支持拜登,11月的大选几乎注定将是拜登对决特朗普。\n\n至于这两位候选人何时才能获得党内正式提名,现在还不明朗。民主党已经将年会从7月中推迟到8月,希望届时数以千计的活动人士、官员、党员能够与会。共和党大会计划八月底举行。但是这两项大事能否成为现实目前仍是问号。\n\n至于大选本身,美国疫情暴发以来,特朗普的支持率且升又降,拜登说争夺将很激烈。但是,现在连几个星期后美国人的心态都很难预测,更别说远在11月的投票日了。\n\n四月初也门出现第一例确诊病例,救援组织警告,饱受战乱的也门面临“噩梦”\n\n也门战争\n\nBBC阿拉伯语记者阿尔-迈加菲(Nawal al-Maghafi)\n\n也门冲突进入第六年。长期以来,这一直就像是一场被人遗忘的战争。过去几个星期战事再次升级,但是世界的焦点都在别处,也门战争似乎前所未有地被人忽视。\n\n两周前,胡塞反叛武装宣称对沙特城市发动攻击,以沙特为首的联盟对也门北部发动一系列报复性空袭。\n\n也门平民需要忍受的不仅仅是战乱,2016年我曾报道当地的霍乱疫情,当局的无力应对迄今仍然记忆犹新,目睹感染者求医无门,心痛不已。\n\n也门目前也面临新冠病毒的侵入。治疗需要病床,需要呼吸机,也门没有。前景细思及恐。\n\n沙特联军宣布,4月9日开始在也门停火两周,对也门人来说,这无疑是个好消息。但是,就算从此永远停战,多年的冲突已经给这个国家留下巨大的破坏和创伤,重建可能需要数十年。\n\n六年的轰炸、破坏给也门留下的是联合国所说的“世界上最严重的人道危机”。从规模、程度、复杂性来看,也门重建的挑战十分严峻。...","meta":{"Dataset":"xP3","Gen":"COL","IFT":true,"Lang":"ML","Multi-round Dialog":false,"Preference":false,"SFT":false,"Task":"MT","origin_path":"Alpaca-CoT\/xP3\/zh\/merged_zh.jsonl"},"text":"Title: 肺炎疫情:被病毒海啸淹没的五件国际大事\\nGiven the above title of an imaginary article, imagine the article.\\n 2019年那些举世瞩目的大事有什么新进展?2020年还在发生、又将出现哪些大事?\n\nBBC为你盘点一些疫情中被“忽视”的大事。看看你错过了哪些。 \n\n英国脱欧过渡期大限是2020年年底\n\n英国脱欧\n\nBBC欧洲事务主编埃德勒(Katya Adler)\n\n在英国,过去三年中脱欧话题几乎主宰一切,现在让位给了新冠病毒。\n\n尽管首相因感染住院并接受重症监护,尽管英国和欧盟首席谈判官员均因疑似感染不久前刚结束自我隔离,唐宁街10号坚持说,脱欧将按既定时间表继续进行。\n\n1月31日英国正式脱离欧盟,现在处于过渡期。过渡期2020年12月31日结束,期间英国与欧盟关系依旧,谈判未来如何相处。\n\n英国政府表示,到今年年底,欧盟与英国必须达成贸易协议。即使没做到,英国也不会延长过渡期。\n\n过渡期的宗旨是最大程度地减少脱欧对英国和欧盟商业与人员流动的干扰。\n\n过渡期可以延长一到两年,欧盟认为,基于目前形势,延长是合理选项。\n\n迄今为止,英国与欧盟之间只进行一轮谈判。上周双方通过视频复会,均表示将尽最大努力争取进展。但是,时间仍在一天天流逝。\n\n布鲁塞尔质疑,英国和欧盟的企业已经备受新冠病毒骚扰,到年底真要再来一场巨大的变动?不管心里怎么想,欧盟领导人不会正式请求英国延长过渡期。\n\n欧盟说了,紧迫的时间表是英国首相约翰逊决定的,如果要延长,伦敦必须自己提出申请。\n\n叙利亚战乱进入第十个年头,三月出现第一起新冠死亡病例\n\n叙利亚停火\n\nBBC首席国际事务记者杜赛特(Lyse Ducet)\n\n叙利亚西北部伊德利卜省是反叛武装的最后一个根据地,3月5日几乎一夜之间就达成了停火协议。\n\n停火能坚持到现在出乎许多人意料。全球政策中心的哈桑(Hassan Hassan)形容,给了人们一个喘息机会的停火协议目前是“悬于一线、但至少线还没断”。\n\n叙利亚战争已经持续九年多,近期叙利亚政府军和土耳其军队在伊德利卜爆发正面冲突,俄国军队也参与打击行动。俄罗斯总统普京3月5日在莫斯科与到访的土耳其总统埃尔多安会谈,就伊德利卜停火达成了协议。\n\n但是,在这个喘息的空档伊德利卜又要去面对一个新敌人。经历长年战乱,该地区满目疮痍, 医保设施遭受严重破坏, 流离失所的人和难民生活在特别危险的条件下,对新冠病毒没有有效的防御手段。\n\n联合国叙利亚问题特使裴凯儒(Geir Pedersen)最近告诉安理会,面对疫情,叙利亚比任何时候都更需要全面、立即停火。 \n\n现在,叙利亚战事的“发言权”掌握在支持对立力量的俄国和土耳其手中。\n\n国际危机组织的高级分析师卡利法(Dareen Khalifa)认为,土耳其和俄罗斯并不相信停火协议能长久坚持去,因为“一些关键问题没有解决”。\n\n谁能预测11月投票日美国选民的心态?\n\n美国大选\n\nBBC北美事务记者祖克尔(Anthony Zurcher)\n\n谁将对决特朗普?将近一个月,民主党候选人提名竞选深度冻结。前副总统拜登初选中占据明显优势,但是一度曾被视作领跑人的桑德斯拒绝退出。\n\n与此同时,迫于疫情,美国各州一个接一个地推迟初选。拜登、桑德斯均停止拉票,仅在家中发布视频声明、接受采访。\n\n这一切都变了,桑德斯已经表态支持拜登,11月的大选几乎注定将是拜登对决特朗普。\n\n至于这两位候选人何时才能获得党内正式提名,现在还不明朗。民主党已经将年会从7月中推迟到8月,希望届时数以千计的活动人士、官员、党员能够与会。共和党大会计划八月底举行。但是这两项大事能否成为现实目前仍是问号。\n\n至于大选本身,美国疫情暴发以来,特朗普的支持率且升又降,拜登说争夺将很激烈。但是,现在连几个星期后美国人的心态都很难预测,更别说远在11月的投票日了。\n\n四月初也门出现第一例确诊病例,救援组织警告,饱受战乱的也门面临“噩梦”\n\n也门战争\n\nBBC阿拉伯语记者阿尔-迈加菲(Nawal al-Maghafi)\n\n也门冲突进入第六年。长期以来,这一直就像是一场被人遗忘的战争。过去几个星期战事再次升级,但是世界的焦点都在别处,也门战争似乎前所未有地被人忽视。\n\n两周前,胡塞反叛武装宣称对沙特城市发动攻击,以沙特为首的联盟对也门北部发动一系列报复性空袭。\n\n也门平民需要忍受的不仅仅是战乱,2016年我曾报道当地的霍乱疫情,当局的无力应对迄今仍然记忆犹新,目睹感染者求医无门,心痛不已。\n\n也门目前也面临新冠病毒的侵入。治疗需要病床,需要呼吸机,也门没有。前景细思及恐。\n\n沙特联军宣布,4月9日开始在也门停火两周,对也门人来说,这无疑是个好消息。但是,就算从此永远停战,多年的冲突已经给这个国家留下巨大的破坏和创伤,重建可能需要数十年。\n\n六年的轰炸、破坏给也门留下的是联合国所说的“世界上最严重的人道危机”。从规模、程度、复杂性来看,也门重建的挑战十分严峻。..."} -{"instruction":"清洁眼部和睫毛上的化妆品,让凡士林的滋润特性发挥最大功效。 用干净的手指搅动表层的凡士林。这么做可以让凡士林变热,涂抹起来更容易。 要让整个刷头都沾满凡士林,但是这种凝胶却总是成块聚集在刷头的前部。这个时候,你只要拿一张湿润的厨房纸巾在刷头上擦几下,凡士林就会均匀分布在刷头上了。 和涂睫毛膏的方法一样,把凡士林刷到上眼皮睫毛上。刷的时候要彻底覆盖睫毛上下两面,小心不要弄到眼睛里。如果你想要眼部皮肤变平滑,还可以在眼皮上涂抹一些凡士林。敏感性皮肤的人用了凡士林后可能会有些反应,使用前最好先在手背上涂抹测试一下。 用睫毛刷再沾取一些凡士林。小心不要把凡士林弄到眼睛里。 刷的时候,睫毛会粘连在一块。不要刷得太多,不然一觉醒来你会发现脸上、床单上、被套都被蹭得油油的。睫毛均匀地覆盖薄薄一层凡士林就可以了。 只要每晚坚持使用,得到充分滋润的睫毛将变得更加坚韧,提前掉落的情况也会大有好转。用凡士林养护睫毛也会帮助延长睫毛的生长周期,让睫毛变得更长、更浓密。 第二天清晨,洗净睫毛上的凡士林。凡士林是油性的,只靠水不能洗净,但是用洁面乳清洁效果就好多了。白天你还是可以和往常一样化妆。只要坚持涂抹,三天就能见效。\n\n===\nWrite a summary of the previous text in Chinese:","input":"","output":"卸妆。 搅动凡士林。 用睫毛刷沾取凡士林。 刷上眼皮睫毛。 刷下眼皮睫毛。 就这样过一夜。 起床后清洁面部。","meta":{"Dataset":"xP3","Gen":"COL","IFT":true,"Lang":"ML","Multi-round Dialog":false,"Preference":false,"SFT":false,"Task":"MT","origin_path":"Alpaca-CoT\/xP3\/zh\/merged_zh.jsonl"},"text":"清洁眼部和睫毛上的化妆品,让凡士林的滋润特性发挥最大功效。 用干净的手指搅动表层的凡士林。这么做可以让凡士林变热,涂抹起来更容易。 要让整个刷头都沾满凡士林,但是这种凝胶却总是成块聚集在刷头的前部。这个时候,你只要拿一张湿润的厨房纸巾在刷头上擦几下,凡士林就会均匀分布在刷头上了。 和涂睫毛膏的方法一样,把凡士林刷到上眼皮睫毛上。刷的时候要彻底覆盖睫毛上下两面,小心不要弄到眼睛里。如果你想要眼部皮肤变平滑,还可以在眼皮上涂抹一些凡士林。敏感性皮肤的人用了凡士林后可能会有些反应,使用前最好先在手背上涂抹测试一下。 用睫毛刷再沾取一些凡士林。小心不要把凡士林弄到眼睛里。 刷的时候,睫毛会粘连在一块。不要刷得太多,不然一觉醒来你会发现脸上、床单上、被套都被蹭得油油的。睫毛均匀地覆盖薄薄一层凡士林就可以了。 只要每晚坚持使用,得到充分滋润的睫毛将变得更加坚韧,提前掉落的情况也会大有好转。用凡士林养护睫毛也会帮助延长睫毛的生长周期,让睫毛变得更长、更浓密。 第二天清晨,洗净睫毛上的凡士林。凡士林是油性的,只靠水不能洗净,但是用洁面乳清洁效果就好多了。白天你还是可以和往常一样化妆。只要坚持涂抹,三天就能见效。\n\n===\nWrite a summary of the previous text in Chinese: 卸妆。 搅动凡士林。 用睫毛刷沾取凡士林。 刷上眼皮睫毛。 刷下眼皮睫毛。 就这样过一夜。 起床后清洁面部。"} -{"instruction":"Title: 朝鮮官媒:金正恩近日「公開露面」出席活動\\nGiven the above title of an imaginary article, imagine the article.\\n","input":"","output":"這是自今年9月3日以來金正恩首次「公開露面」。\n\n韓聯社說,這是自今年9月3日觀看牡丹峰樂團新作音樂會以來,金正恩時隔40天再次「公開露面」。\n\n朝中社星期二(10月14日)說,金正恩近日前往新建成的衛星科學家居住區視察。\n\n報道說,金正恩在視察居住區的同時具體掌握的建設情況,這顯示其間金正恩的身體狀況未出現較大問題。\n\n朝鮮勞動黨機關報《勞動新聞》星期二在第一到第三版刊登了金正恩視察新建成的衛星科學家居住區的多張照片。\n\n在頭版刊登的5張金正恩照片,包括金正恩手持拐杖行走或坐下休息的照片。不過,朝鮮官方媒體沒有說明這些照片的拍攝日期。\n\n韓聯社說,從照片來看,金正恩的腳踝和小腿尚未痊癒。\n\n32歲的朝鮮最高領導人金正恩從公眾視線中已經消失1個多月,引起外界對這個以毫無透明度著稱的秘密國家的政治局勢的各種揣測。\n\n在今年9月9日的朝鮮國慶節和10月10日朝鮮執政勞動黨的建黨節上,金正恩都沒有露面。外界質疑金正恩是否仍然掌握實權。\n\n朝鮮官媒早些時候曾引述未透露姓名的消息來源說,金正恩在公眾視野中消失一個多月的原因,是因為他「身體不適」。\n\n星期日,朝鮮駐倫敦大使對BBC表示,金正恩的身體無恙。\n\nBBC駐韓國首爾記者斯蒂文·伊文斯說,朝鮮官方媒體希望結束對金正恩去向的揣測顯示,金正恩並非遭遇了政變。\n\n朝中社說,除了視察科學家居住區外,「金正恩還視察了新建的國家科學院自然能源研究所,向負責建設工作的軍人和建築工人表示了感謝」。\n\n報道還說,朝鮮人民軍總政治局局長黃炳誓、勞動黨中央委員會書記崔龍海、人民武力部副部長金正寬陪同金正恩進行了視察。\n\n(撰稿\/責編:蕭爾)","meta":{"Dataset":"xP3","Gen":"COL","IFT":true,"Lang":"ML","Multi-round Dialog":false,"Preference":false,"SFT":false,"Task":"MT","origin_path":"Alpaca-CoT\/xP3\/zh\/merged_zh.jsonl"},"text":"Title: 朝鮮官媒:金正恩近日「公開露面」出席活動\\nGiven the above title of an imaginary article, imagine the article.\\n 這是自今年9月3日以來金正恩首次「公開露面」。\n\n韓聯社說,這是自今年9月3日觀看牡丹峰樂團新作音樂會以來,金正恩時隔40天再次「公開露面」。\n\n朝中社星期二(10月14日)說,金正恩近日前往新建成的衛星科學家居住區視察。\n\n報道說,金正恩在視察居住區的同時具體掌握的建設情況,這顯示其間金正恩的身體狀況未出現較大問題。\n\n朝鮮勞動黨機關報《勞動新聞》星期二在第一到第三版刊登了金正恩視察新建成的衛星科學家居住區的多張照片。\n\n在頭版刊登的5張金正恩照片,包括金正恩手持拐杖行走或坐下休息的照片。不過,朝鮮官方媒體沒有說明這些照片的拍攝日期。\n\n韓聯社說,從照片來看,金正恩的腳踝和小腿尚未痊癒。\n\n32歲的朝鮮最高領導人金正恩從公眾視線中已經消失1個多月,引起外界對這個以毫無透明度著稱的秘密國家的政治局勢的各種揣測。\n\n在今年9月9日的朝鮮國慶節和10月10日朝鮮執政勞動黨的建黨節上,金正恩都沒有露面。外界質疑金正恩是否仍然掌握實權。\n\n朝鮮官媒早些時候曾引述未透露姓名的消息來源說,金正恩在公眾視野中消失一個多月的原因,是因為他「身體不適」。\n\n星期日,朝鮮駐倫敦大使對BBC表示,金正恩的身體無恙。\n\nBBC駐韓國首爾記者斯蒂文·伊文斯說,朝鮮官方媒體希望結束對金正恩去向的揣測顯示,金正恩並非遭遇了政變。\n\n朝中社說,除了視察科學家居住區外,「金正恩還視察了新建的國家科學院自然能源研究所,向負責建設工作的軍人和建築工人表示了感謝」。\n\n報道還說,朝鮮人民軍總政治局局長黃炳誓、勞動黨中央委員會書記崔龍海、人民武力部副部長金正寬陪同金正恩進行了視察。\n\n(撰稿\/責編:蕭爾)"} -{"instruction":"Doc to summarize: 政法委负责司法、公安等部门的工作。\n\n这位被媒体引述为“王某意”的干部长期在深圳政法委工作,2010年起担任政法委局级副巡视员。\n\n据介绍,这位王副巡视员曾担任深圳维稳领导办公室维稳处处长,并因工作表现优异获评先进个人。\n\n据中国媒体介绍,这位王副巡视员因索贿80万元而未能“替人消灾”而被人偷拍下索贿和嫖娼的录音录像并实名举报。\n\n媒体引述深圳市检察院说,此案目前已经进入审查起诉阶段。\n\n背景\n\n实名举报者是深圳一家公司姓陈的老板,他为了一个工程官司通过中间人找到这位王副巡视员帮忙。王当时向他索贿100万元人民币。\n\n据报道,陈某说,公司资金紧张,能不能少点。王副巡视员回答说,“那就80万,不能再少了”。之后,这位巡视员还要求陈某陪他前往东莞嫖娼40多次,嫖资均由陈某支付。\n\n但陈某在付过80万“好处费”并陪同嫖娼之后,他在深圳中院的官司却以败诉告终,其后的广东省高院上诉也遭败诉。\n\n愤怒之下,陈某实名举报了这位王副巡视员,并将事先偷偷录制的行贿受贿和嫖娼的录音录像一同寄往纪检部门。\n\n据深圳检察院今年8月底的工作报告,自去年10月份以来,深圳共查处涉及违法违纪的厅局级干部三人,县处级干部19人。\n\n(撰稿:沙漠\/责编:萧尔)\n\n\\nSummary in the same language as the doc:","input":"","output":"深圳市政法委的一名副巡视员被人实名举报索贿80万元人民币及嫖娼40次,被立案调查。","meta":{"Dataset":"xP3","Gen":"COL","IFT":true,"Lang":"ML","Multi-round Dialog":false,"Preference":false,"SFT":false,"Task":"MT","origin_path":"Alpaca-CoT\/xP3\/zh\/merged_zh.jsonl"},"text":"Doc to summarize: 政法委负责司法、公安等部门的工作。\n\n这位被媒体引述为“王某意”的干部长期在深圳政法委工作,2010年起担任政法委局级副巡视员。\n\n据介绍,这位王副巡视员曾担任深圳维稳领导办公室维稳处处长,并因工作表现优异获评先进个人。\n\n据中国媒体介绍,这位王副巡视员因索贿80万元而未能“替人消灾”而被人偷拍下索贿和嫖娼的录音录像并实名举报。\n\n媒体引述深圳市检察院说,此案目前已经进入审查起诉阶段。\n\n背景\n\n实名举报者是深圳一家公司姓陈的老板,他为了一个工程官司通过中间人找到这位王副巡视员帮忙。王当时向他索贿100万元人民币。\n\n据报道,陈某说,公司资金紧张,能不能少点。王副巡视员回答说,“那就80万,不能再少了”。之后,这位巡视员还要求陈某陪他前往东莞嫖娼40多次,嫖资均由陈某支付。\n\n但陈某在付过80万“好处费”并陪同嫖娼之后,他在深圳中院的官司却以败诉告终,其后的广东省高院上诉也遭败诉。\n\n愤怒之下,陈某实名举报了这位王副巡视员,并将事先偷偷录制的行贿受贿和嫖娼的录音录像一同寄往纪检部门。\n\n据深圳检察院今年8月底的工作报告,自去年10月份以来,深圳共查处涉及违法违纪的厅局级干部三人,县处级干部19人。\n\n(撰稿:沙漠\/责编:萧尔)\n\n\\nSummary in the same language as the doc: 深圳市政法委的一名副巡视员被人实名举报索贿80万元人民币及嫖娼40次,被立案调查。"} -{"instruction":"导入图像。 打开“图层”对话框。 添加新图层。 选择一个临摹工具。 使用绘图平板电脑或鼠标,临摹图像中的每条线。 打开“编辑节点”工具。 在没有底层的情况下查看临摹。 删除底层并保存图像。\n\nI'm interested in that, but I only have a few mins. Can you give me at most the first 500 characters of a detailed explanation in Chinese about that?","input":"","output":"点击菜单栏上的“文件”,然后选择“导入”。 严格来说,虽然临摹新图层是可选的,但它可以让你设置图像(或临摹图层)的不透明度,从而帮助你了解自己在做什么。点击菜单栏上的“图层”,然后选择“图层”。 点击“+”按钮添加一个新图层。输入图层名称(如,临摹图层),并在位置中切换到“当前之上”。点击“添加”。 有各种工具可以满足不同的需求。 按键盘上的F6键(或点击工具菜单上的铅笔图标)来选择铅笔\/手绘工具。这个工具可以让你在图像上的任何地方自由绘画。如果你正在使用绘图平板电脑进行临摹,不管自己的手绘技术怎么样,这个工具都能满足你的需求。 同时按Shift+F6(或点击工具菜单上的钢笔图标)打开钢笔\/贝塞尔工具。这个工具允许你点击要临摹的线的末端,这样将创建易于操作的小线段。如果你有几条线要临摹,并且正在使用鼠标,那么这个工具就能带来最精确的结果。双击每条线的末尾以结束路径。 如果你正在使用钢笔工具,试着用更短的线条代替单个连续的线条。这样会使你的临摹更容易编辑,因为如果你在最后犯了一个小错误,就不用重新开始绘制很长的线条。 你可以在图层对话框中切换图层。只要双击你想要使用的图层名,就会切换","meta":{"Dataset":"xP3","Gen":"COL","IFT":true,"Lang":"ML","Multi-round Dialog":false,"Preference":false,"SFT":false,"Task":"MT","origin_path":"Alpaca-CoT\/xP3\/zh\/merged_zh.jsonl"},"text":"导入图像。 打开“图层”对话框。 添加新图层。 选择一个临摹工具。 使用绘图平板电脑或鼠标,临摹图像中的每条线。 打开“编辑节点”工具。 在没有底层的情况下查看临摹。 删除底层并保存图像。\n\nI'm interested in that, but I only have a few mins. Can you give me at most the first 500 characters of a detailed explanation in Chinese about that? 点击菜单栏上的“文件”,然后选择“导入”。 严格来说,虽然临摹新图层是可选的,但它可以让你设置图像(或临摹图层)的不透明度,从而帮助你了解自己在做什么。点击菜单栏上的“图层”,然后选择“图层”。 点击“+”按钮添加一个新图层。输入图层名称(如,临摹图层),并在位置中切换到“当前之上”。点击“添加”。 有各种工具可以满足不同的需求。 按键盘上的F6键(或点击工具菜单上的铅笔图标)来选择铅笔\/手绘工具。这个工具可以让你在图像上的任何地方自由绘画。如果你正在使用绘图平板电脑进行临摹,不管自己的手绘技术怎么样,这个工具都能满足你的需求。 同时按Shift+F6(或点击工具菜单上的钢笔图标)打开钢笔\/贝塞尔工具。这个工具允许你点击要临摹的线的末端,这样将创建易于操作的小线段。如果你有几条线要临摹,并且正在使用鼠标,那么这个工具就能带来最精确的结果。双击每条线的末尾以结束路径。 如果你正在使用钢笔工具,试着用更短的线条代替单个连续的线条。这样会使你的临摹更容易编辑,因为如果你在最后犯了一个小错误,就不用重新开始绘制很长的线条。 你可以在图层对话框中切换图层。只要双击你想要使用的图层名,就会切换"} -{"instruction":"D: 随着年龄增长,偏头痛发病率的变化很大:偏头痛的初次发病年龄常在15岁至24岁之间,这些患者在其35岁至45岁间的发作频率最高。约有1.7%的7岁儿童和3.9%的7岁到15岁儿童患有偏头痛,在青春期前,偏头痛在男孩中略多见一些。在青少年中,偏头痛在女性中的发病率要高一些,这种情况会随着年龄增长一直持续下去,到老年时,女性的发病率甚至达到了男性的两倍。在女性偏头痛患者中,无先兆偏头痛较有先兆偏头痛更为常见,而这两种类型偏头痛在男性中的发病率几乎相同。女性在围绝经期症状常常会加重,但随着年龄增长会有所减轻。虽然约三分之二的老年人症状会消失,但仍有3-10%的老年患者症状会持续下去。\n\nQ: 哪个年龄层的人最常患上偏头痛?\n\nA:","input":"","output":"35岁至45岁","meta":{"Dataset":"xP3","Gen":"COL","IFT":true,"Lang":"ML","Multi-round Dialog":false,"Preference":false,"SFT":false,"Task":"MT","origin_path":"Alpaca-CoT\/xP3\/zh\/merged_zh.jsonl"},"text":"D: 随着年龄增长,偏头痛发病率的变化很大:偏头痛的初次发病年龄常在15岁至24岁之间,这些患者在其35岁至45岁间的发作频率最高。约有1.7%的7岁儿童和3.9%的7岁到15岁儿童患有偏头痛,在青春期前,偏头痛在男孩中略多见一些。在青少年中,偏头痛在女性中的发病率要高一些,这种情况会随着年龄增长一直持续下去,到老年时,女性的发病率甚至达到了男性的两倍。在女性偏头痛患者中,无先兆偏头痛较有先兆偏头痛更为常见,而这两种类型偏头痛在男性中的发病率几乎相同。女性在围绝经期症状常常会加重,但随着年龄增长会有所减轻。虽然约三分之二的老年人症状会消失,但仍有3-10%的老年患者症状会持续下去。\n\nQ: 哪个年龄层的人最常患上偏头痛?\n\nA: 35岁至45岁"} -{"instruction":"独立公投选票上网出售 苏格兰警方介入\\n一个格拉斯哥人在网上出售选票,起价99便士。\n\n苏格兰警方已经开始调查此事,eBay也已将选票从其网站上拿掉。\n\n独立公投将于9月18日举行。有一个格拉斯哥卖家在eBay上出售选票,起价是99便士。他说,他出售选票是因为他对公投“毫不在意”。\n\n但他把这张选票称为“我自己的独一无二的英国历史片段”,并说“这或许将是决定性的一票”。\n\n“我是一个辛勤工作的苏格兰公民,我有一座房子,一个可爱的老婆和两个漂亮的孩子,他们就是我的世界。\n\n“这张选票不会给我们的生活带来任何改变,所以我决定不参加投票。”\n\n采取行动\n\n选举委员会的一位发言人说,委员会已经和eBay网站达成协议,如果再有人在网上出售选票,eBay将立刻将其拿掉,并向警方举报。\n\n她说,买卖选票都是犯罪行为,违法者可能会被判高额罚款或一年监禁。\n\n苏格兰警方的一位发言人说,警方正在调查这些买卖选票事件。\n\n(编译:秦川 责编:顾垠)\n\n\\n\\ntl;dr:","input":"","output":"苏格兰独立公投在即,有人居然把选票放在eBay网站上公开出售。选举委员会说,买卖选票都是违法行为。","meta":{"Dataset":"xP3","Gen":"COL","IFT":true,"Lang":"ML","Multi-round Dialog":false,"Preference":false,"SFT":false,"Task":"MT","origin_path":"Alpaca-CoT\/xP3\/zh\/merged_zh.jsonl"},"text":"独立公投选票上网出售 苏格兰警方介入\\n一个格拉斯哥人在网上出售选票,起价99便士。\n\n苏格兰警方已经开始调查此事,eBay也已将选票从其网站上拿掉。\n\n独立公投将于9月18日举行。有一个格拉斯哥卖家在eBay上出售选票,起价是99便士。他说,他出售选票是因为他对公投“毫不在意”。\n\n但他把这张选票称为“我自己的独一无二的英国历史片段”,并说“这或许将是决定性的一票”。\n\n“我是一个辛勤工作的苏格兰公民,我有一座房子,一个可爱的老婆和两个漂亮的孩子,他们就是我的世界。\n\n“这张选票不会给我们的生活带来任何改变,所以我决定不参加投票。”\n\n采取行动\n\n选举委员会的一位发言人说,委员会已经和eBay网站达成协议,如果再有人在网上出售选票,eBay将立刻将其拿掉,并向警方举报。\n\n她说,买卖选票都是犯罪行为,违法者可能会被判高额罚款或一年监禁。\n\n苏格兰警方的一位发言人说,警方正在调查这些买卖选票事件。\n\n(编译:秦川 责编:顾垠)\n\n\\n\\ntl;dr: 苏格兰独立公投在即,有人居然把选票放在eBay网站上公开出售。选举委员会说,买卖选票都是违法行为。"} -{"instruction":"Do these keywords \"厚度, 显微硬度, 均匀性, 齿顶\" represent key concepts in the abstract \"设计和采用不同的喷涂轨迹,通过超音速火焰喷涂技术在铝齿柱表面制备了WC-10Co4Cr涂层,利用金相显微镜(OM)、SEM和显微硬度测试等进行了涂层的微观组织观测和厚度、硬度均匀性分析.结果表明:涂层致密,与基体结合非常好.涂层厚度和硬度分布不均匀,齿槽底沉积率高,厚度偏大,啮合面和齿顶位置厚度在160~210μm之间,数值分散性较小,齿槽底涂层硬度低,HV0.3≈700~800,啮合面和齿顶位置涂层硬度高,HV0.3在1150~1300范围内.齿形件的喷涂轨迹参数2H影响齿顶面、啮合面和齿槽等不同位置的喷涂角度和沉积环境,导致涂层形貌、沉积率和硬度均有差别.2H=55mm时,不同齿形位置的涂层厚度和硬度分布更均匀,但齿槽底涂层存在孔隙,硬度偏低.\"?","input":"","output":"no","meta":{"Dataset":"xP3","Gen":"COL","IFT":true,"Lang":"ML","Multi-round Dialog":false,"Preference":false,"SFT":false,"Task":"MT","origin_path":"Alpaca-CoT\/xP3\/zh\/merged_zh.jsonl"},"text":"Do these keywords \"厚度, 显微硬度, 均匀性, 齿顶\" represent key concepts in the abstract \"设计和采用不同的喷涂轨迹,通过超音速火焰喷涂技术在铝齿柱表面制备了WC-10Co4Cr涂层,利用金相显微镜(OM)、SEM和显微硬度测试等进行了涂层的微观组织观测和厚度、硬度均匀性分析.结果表明:涂层致密,与基体结合非常好.涂层厚度和硬度分布不均匀,齿槽底沉积率高,厚度偏大,啮合面和齿顶位置厚度在160~210μm之间,数值分散性较小,齿槽底涂层硬度低,HV0.3≈700~800,啮合面和齿顶位置涂层硬度高,HV0.3在1150~1300范围内.齿形件的喷涂轨迹参数2H影响齿顶面、啮合面和齿槽等不同位置的喷涂角度和沉积环境,导致涂层形貌、沉积率和硬度均有差别.2H=55mm时,不同齿形位置的涂层厚度和硬度分布更均匀,但齿槽底涂层存在孔隙,硬度偏低.\"? no"} -{"instruction":"對於中國來說,向土耳其出售防空導彈的協議使中國成為先進武器的出口國。\n\n路透社分析認為,就在美國在伊拉克和阿富汗投入了大量資金、損失了大量美國人生命的同時,中國卻在悄悄擴大在中東的影響力。\n\n美國在海灣水域永久部署著航空母艦和其他軍艦,並在土耳其、卡塔爾和阿聯酋設有軍事基地,從軍事角度來看,美國在該地區擁有最強大的軍事實力。\n\n影響上升\n\n中國的經濟、政治和外交影響力正在迅速上升。中國商務部上個月稱,中國與阿拉伯國家的貿易額達到每年2220億美元,為2002年貿易額的12倍,且超過了2011年美國與中東1930億美元的貿易水平。\n\n此外,中國對中東地區的軍事影響力也在不斷增加。中國不僅在印度洋部署了三艘護航軍艦打擊海盜,還時而派遣艦船前往地中海,並在黎巴嫩參與聯合國的維和行動。\n\n土耳其選擇購買價值34億美元的中國FD-2000型防空導彈系統,拒絕了美國或歐洲的系統,或許是對未來的一種預兆。\n\n更多介入\n\n前美國官員、美國高級國際關係學院的研究員克里斯蒂娜·林(Christina Lin)指出。「這是在敲響警鐘。中國尋求更多地介入中東事務,並越發得到歡迎。」\n\n她曾在去年在美國參謀長聯席會議上對此事進行匯報。她說,中國對中東的興趣和利益,涵蓋能源、投資,到防止穆斯林極端分子擴散等範圍。\n\n專家表示,北京與中東往來的核心手法是結合商業與地緣政治。中國官員時常出訪中東,中東國家領導人也不斷訪問北京。\n\n中國9月在寧夏舉行了為期5天的中國與阿拉伯國家博覽會。\n\n實現突破\n\n中國多年來不斷向埃及、約旦、黎巴嫩和卡塔爾供應小型武器。不過,中國與土耳其的導彈交易仍被視為中國在出售先進武器上的重大突破。\n\n中國不斷增加的能源需求被視為背後主要動機。國際能源署預期,中國從中東進口的原油,會從2011年每天290萬桶增加到2035年的每天670萬桶,預期將佔原油總進口量的54%。\n\n刻意多樣化\n\n路透社分析指出,中國對中東的著眼點,不只在武器交易和原油。美國和中東貿易約75%是與能源相關,中國則刻意開展多樣化貿易項目,目前其半數以上貿易額與能源無關。\n\n從長期來看,有人提到興建鐵路以連結中國、中亞和土耳其,讓中國產品能用火車運到歐洲,如某些分析家所稱的「新絲綢之路」。\n\n(編譯\/責編:路西)\n\n \\n\\nGive me a good title for the article above.","input":"","output":"英媒:中國正加強對中東地區的影響力","meta":{"Dataset":"xP3","Gen":"COL","IFT":true,"Lang":"ML","Multi-round Dialog":false,"Preference":false,"SFT":false,"Task":"MT","origin_path":"Alpaca-CoT\/xP3\/zh\/merged_zh.jsonl"},"text":"對於中國來說,向土耳其出售防空導彈的協議使中國成為先進武器的出口國。\n\n路透社分析認為,就在美國在伊拉克和阿富汗投入了大量資金、損失了大量美國人生命的同時,中國卻在悄悄擴大在中東的影響力。\n\n美國在海灣水域永久部署著航空母艦和其他軍艦,並在土耳其、卡塔爾和阿聯酋設有軍事基地,從軍事角度來看,美國在該地區擁有最強大的軍事實力。\n\n影響上升\n\n中國的經濟、政治和外交影響力正在迅速上升。中國商務部上個月稱,中國與阿拉伯國家的貿易額達到每年2220億美元,為2002年貿易額的12倍,且超過了2011年美國與中東1930億美元的貿易水平。\n\n此外,中國對中東地區的軍事影響力也在不斷增加。中國不僅在印度洋部署了三艘護航軍艦打擊海盜,還時而派遣艦船前往地中海,並在黎巴嫩參與聯合國的維和行動。\n\n土耳其選擇購買價值34億美元的中國FD-2000型防空導彈系統,拒絕了美國或歐洲的系統,或許是對未來的一種預兆。\n\n更多介入\n\n前美國官員、美國高級國際關係學院的研究員克里斯蒂娜·林(Christina Lin)指出。「這是在敲響警鐘。中國尋求更多地介入中東事務,並越發得到歡迎。」\n\n她曾在去年在美國參謀長聯席會議上對此事進行匯報。她說,中國對中東的興趣和利益,涵蓋能源、投資,到防止穆斯林極端分子擴散等範圍。\n\n專家表示,北京與中東往來的核心手法是結合商業與地緣政治。中國官員時常出訪中東,中東國家領導人也不斷訪問北京。\n\n中國9月在寧夏舉行了為期5天的中國與阿拉伯國家博覽會。\n\n實現突破\n\n中國多年來不斷向埃及、約旦、黎巴嫩和卡塔爾供應小型武器。不過,中國與土耳其的導彈交易仍被視為中國在出售先進武器上的重大突破。\n\n中國不斷增加的能源需求被視為背後主要動機。國際能源署預期,中國從中東進口的原油,會從2011年每天290萬桶增加到2035年的每天670萬桶,預期將佔原油總進口量的54%。\n\n刻意多樣化\n\n路透社分析指出,中國對中東的著眼點,不只在武器交易和原油。美國和中東貿易約75%是與能源相關,中國則刻意開展多樣化貿易項目,目前其半數以上貿易額與能源無關。\n\n從長期來看,有人提到興建鐵路以連結中國、中亞和土耳其,讓中國產品能用火車運到歐洲,如某些分析家所稱的「新絲綢之路」。\n\n(編譯\/責編:路西)\n\n \\n\\nGive me a good title for the article above. 英媒:中國正加強對中東地區的影響力"} -{"instruction":"BBC事实查核:中国共产党有没有“女性问题”\\n2013年3月16日,人民大会堂中的四位女性人大代表\n\n《纽约时报》刊登的一篇文章说,女性被\"关在外面\"。\n\n有人不禁要问了,中国共产党是不是应该更加严肃看待男女平等这个问题?\n\n在世界各地男性主宰高层政坛现象受到挑战的今天,在\"半边天\"被作为女人同义词、宪法保障男女平等的中国,执政的共产党是否真有\"女性问题\"?\n\n刘延东是政治局两名女委员之一,预计十九大后会退休\n\n玻璃屋顶\n\n中共总计有党员8940万人,其中接近2300万是女性,比例为26%。\n\n中国最高国家权力机关\"全国代表大会\"中,女性代表比例为24%。但是,人大代表不一定必须是党员。\n\n政坛上,越往高处走,女性越少。\n\n2012年中共十八大之后,中央委员会当中只有33名女性,所占比例约为9%。中央委员会负责选举权力强大的政治局。\n\n而政治局25名成员当中只有2名女性:8%。刘延东是其中之一,但她预计十九大后会退休。 \n\n习近平讲话,听的大多是穿深色西装的男代表\n\n发展人脉\n\n显而易见,尽管中国政府一直强调男女平等,尽管中国上大学的女性人数超过男性,中国女性要想突破政坛的玻璃屋顶还是有难度的。\n\n那么,障碍在哪里?\n\n通常,女性是在读大学期间或者加入工作时入党,将其作为发展职业的一个助动器。但是,女性晋升到县级以上特别困难。\n\n加拿大多伦多大学政治学系教授Lynette H.Ong说,长期以来,人们一直认为女性的位置是在家、在厨房里。这就意味着,女人不应该有太大野心。她们的社会角色是照顾好丈夫、孩子、孩子的孩子。\n\n“尽管毛泽东曾经说过那句妇女能顶半天天,女性争取平等代表权还有相当长的路要走。\"\n\n妨碍女性晋升的另外一个原因是,不先在省政府或党委任职就鲜有机会提升到国家级任职,爬梯子需要时间。\n\n确实有女性被提拔到中层领导位置,但是,高层领导中女性还是寥若星辰。\n\n位于维也纳的”人文科学研究所“访问学者李玲博士说,\"需要和那些有任命权的人构建良好的关系网,那些人绝大多数是男性。\"\n\n女性退休年龄更低也限制着她们的发展。现在,中国男性的退休年龄是60岁,女性公务员和国营企业雇员退休年龄是55岁,其他单位女性则为50岁。\n\n高层女干部通常分管“女性事务”。比如中央委员李斌担任国家计划生育委员会主任\n\n有人认为,中国政府应当更加主动。\n\n伦敦经济学院民事社会中心主任Jude Howell教授说,\"在推行那些为女性政坛发展扫除障碍的政策方面,政府力度不够。因为诠释方式不妥当,指标制起到了反作用。\"\n\n那么,中国的现象是不是不寻常呢?和其他国家相比,中国女性的地位是不是更糟糕?\n\n并非如此。\n\n拿中国女性在全国人大当中承担的职位与英国议员、美国众议员相比,就好像是拿苹果和梨子作比较--风马牛不相及。\n\n但是有一点很清楚,在世界各地,政治决策机构中女性所占比例都很低,这一现象并不仅仅是在中国。\n\n英国议会下院中,女议员比例为32%,这还是历史最高纪录。\n\n印度议会\"人民院\"(Lok Sabha)中女性为11%;日本国会中女性比例更低:只有9%。\n\n其他一些国家看似更平等:卢旺达众议院中女性占61%的席位;古巴\"全国人民政权代表大会\"中女性占49%。\n\n女性在各国议会中所占比例(百分比)。由上至下分别为:卢旺达,古巴,英国,德国,中国,肯尼亚,美国,朝鲜,印度,巴西,日本\n\n再来讲一讲基层。\n\n中国共产党女党员的比例仅为26%。但是,看看其他国家,这个数字并不显得那么特别。\n\n越南和古巴都是一党制国家。最新的统计数字显示,女性党员的比例都不到33%。\n\n多党制国家状况也差不多。德国,默克尔的”基民盟“中,女性成员占26%;英国,梅首相的保守党中女性党员占大约30%。\n\n巴西,圣保罗大学一项调查显示,圣保罗州所有党员当中,女性为33%。\n\n结论:共产党领导的中国,女性参政议政比例确实偏低;不过,这样的”女性问题“并不是中国共产党独有。\n\n\\n\\ntl;dr:","input":"","output":"正在北京召开的中国共产党第十九次代表大会代表总数为2280人,其中女性还不到四分之一。","meta":{"Dataset":"xP3","Gen":"COL","IFT":true,"Lang":"ML","Multi-round Dialog":false,"Preference":false,"SFT":false,"Task":"MT","origin_path":"Alpaca-CoT\/xP3\/zh\/merged_zh.jsonl"},"text":"BBC事实查核:中国共产党有没有“女性问题”\\n2013年3月16日,人民大会堂中的四位女性人大代表\n\n《纽约时报》刊登的一篇文章说,女性被\"关在外面\"。\n\n有人不禁要问了,中国共产党是不是应该更加严肃看待男女平等这个问题?\n\n在世界各地男性主宰高层政坛现象受到挑战的今天,在\"半边天\"被作为女人同义词、宪法保障男女平等的中国,执政的共产党是否真有\"女性问题\"?\n\n刘延东是政治局两名女委员之一,预计十九大后会退休\n\n玻璃屋顶\n\n中共总计有党员8940万人,其中接近2300万是女性,比例为26%。\n\n中国最高国家权力机关\"全国代表大会\"中,女性代表比例为24%。但是,人大代表不一定必须是党员。\n\n政坛上,越往高处走,女性越少。\n\n2012年中共十八大之后,中央委员会当中只有33名女性,所占比例约为9%。中央委员会负责选举权力强大的政治局。\n\n而政治局25名成员当中只有2名女性:8%。刘延东是其中之一,但她预计十九大后会退休。 \n\n习近平讲话,听的大多是穿深色西装的男代表\n\n发展人脉\n\n显而易见,尽管中国政府一直强调男女平等,尽管中国上大学的女性人数超过男性,中国女性要想突破政坛的玻璃屋顶还是有难度的。\n\n那么,障碍在哪里?\n\n通常,女性是在读大学期间或者加入工作时入党,将其作为发展职业的一个助动器。但是,女性晋升到县级以上特别困难。\n\n加拿大多伦多大学政治学系教授Lynette H.Ong说,长期以来,人们一直认为女性的位置是在家、在厨房里。这就意味着,女人不应该有太大野心。她们的社会角色是照顾好丈夫、孩子、孩子的孩子。\n\n“尽管毛泽东曾经说过那句妇女能顶半天天,女性争取平等代表权还有相当长的路要走。\"\n\n妨碍女性晋升的另外一个原因是,不先在省政府或党委任职就鲜有机会提升到国家级任职,爬梯子需要时间。\n\n确实有女性被提拔到中层领导位置,但是,高层领导中女性还是寥若星辰。\n\n位于维也纳的”人文科学研究所“访问学者李玲博士说,\"需要和那些有任命权的人构建良好的关系网,那些人绝大多数是男性。\"\n\n女性退休年龄更低也限制着她们的发展。现在,中国男性的退休年龄是60岁,女性公务员和国营企业雇员退休年龄是55岁,其他单位女性则为50岁。\n\n高层女干部通常分管“女性事务”。比如中央委员李斌担任国家计划生育委员会主任\n\n有人认为,中国政府应当更加主动。\n\n伦敦经济学院民事社会中心主任Jude Howell教授说,\"在推行那些为女性政坛发展扫除障碍的政策方面,政府力度不够。因为诠释方式不妥当,指标制起到了反作用。\"\n\n那么,中国的现象是不是不寻常呢?和其他国家相比,中国女性的地位是不是更糟糕?\n\n并非如此。\n\n拿中国女性在全国人大当中承担的职位与英国议员、美国众议员相比,就好像是拿苹果和梨子作比较--风马牛不相及。\n\n但是有一点很清楚,在世界各地,政治决策机构中女性所占比例都很低,这一现象并不仅仅是在中国。\n\n英国议会下院中,女议员比例为32%,这还是历史最高纪录。\n\n印度议会\"人民院\"(Lok Sabha)中女性为11%;日本国会中女性比例更低:只有9%。\n\n其他一些国家看似更平等:卢旺达众议院中女性占61%的席位;古巴\"全国人民政权代表大会\"中女性占49%。\n\n女性在各国议会中所占比例(百分比)。由上至下分别为:卢旺达,古巴,英国,德国,中国,肯尼亚,美国,朝鲜,印度,巴西,日本\n\n再来讲一讲基层。\n\n中国共产党女党员的比例仅为26%。但是,看看其他国家,这个数字并不显得那么特别。\n\n越南和古巴都是一党制国家。最新的统计数字显示,女性党员的比例都不到33%。\n\n多党制国家状况也差不多。德国,默克尔的”基民盟“中,女性成员占26%;英国,梅首相的保守党中女性党员占大约30%。\n\n巴西,圣保罗大学一项调查显示,圣保罗州所有党员当中,女性为33%。\n\n结论:共产党领导的中国,女性参政议政比例确实偏低;不过,这样的”女性问题“并不是中国共产党独有。\n\n\\n\\ntl;dr: 正在北京召开的中国共产党第十九次代表大会代表总数为2280人,其中女性还不到四分之一。"} -{"instruction":"Content: 這段話出自1939年2月22日的香港《星島晨報》一篇報道,《兩位印度的中國友人在惠州》,署名\"本報特派東江記者徐飛\"。\n\n這張剪報來自一本老式學生練習簿,主人是瑪諾什·巴魯阿,BBC英國廣播公司國際台南亞區編輯。她的父親正是當年為特派記者徐飛用英語寫下這段話的兩名印度人之一,達士(Ajay Kumar Das)。\n\nBBC英國廣播公司國際台南亞區編輯瑪諾什·巴魯阿\n\n小紅本\n\n瑪諾什·巴魯阿在加爾各答上小學的時候,奶奶給了她一個紅色硬皮封面的練習簿,不厚,裏面貼了不少舊剪報。\n\n她說:\"我上小學的時候,有一天奶奶給了我一個剪貼本,裏面有各式各樣的剪紙粘貼,其中有兩張中文剪報。奶奶叮囑我好好保存這個本子,等我長大了,讀讀這些文章,我會為自己的父親感到驕傲。\"\n\n那裏有她父親的一段鮮為人知的海外歷險經歷,神秘又複雜。\n\n瑪諾什是3個孩子裏的老大。關於父親年輕時在國外的經歷 ,她聽家里長輩說過,但具體情節了解不多,沒什麼感性印象。剪貼本裏那兩張年代十分久遠的外國報紙剪報,發黃、發脆,上面都是中文,她看不懂。\n\n因為是長輩的往事,所以一直沒太在意。父親2014年去世後,家裏凖備把一些舊的文件資料數據化,便於保存。\n\n最近,她在整理故紙時忽然想到:為什麼不可以請國際台中文科同事幫忙,看看剪貼簿裏那張1939年的香港報紙剪報,到底寫了些什麼?\n\n結果,她驚訝地發現:原來父親也曾是個熱血青年。奶奶當年說得對,這些記載讓她為有這樣一個父親而驕傲。\n\n在發黃的舊剪報的字裏行間,達士先生那一段鮮為人知的故事重見天日,變得鮮活靈動、有血有肉。\n\n中國告急\n\n《星島晨報》是1938年僑商胡文虎在香港創辦的星島報系3份中文報紙之一,另有《星島日報》和《星島晚報》。日本佔領香港期間,《星島日報》改名《香島日報》,1945年8月底日本投降後恢復成《星島日報》。\n\n1938年,達士21歲,是大學醫科3年級學生,離畢業還有一年。大學所在地邁門辛(Mymensingh)當年是印度的一部分,現在屬於孟加拉國。\n\n當時印度在爭取獨立,中國在抵抗日本侵略,歐洲則大戰一觸即發。\n\n1937年日本侵華戰爭爆發後,中國國民政府和共產黨向世界發出呼籲,請求國際社會提供醫療援助。\n\n印度國大黨主席尼赫魯派了一支5人醫療隊,其中就有廣為人知的柯棣華大夫。\n\n不過,達士和另一位醫科學生傑克拉巴迪的故事,現在能找到的記錄很少。在介紹緬甸華僑救護隊的資料文檔裏,大部分只是提到隊員裏包含兩名印度醫生。\n\n當年救護隊成員之一的馬興寅在《緬甸華僑救護隊回國抗日親歷記》一文中回憶當時救護隊成立的經過,其中提到兩名印度醫生,還寫下了他們的名字,提到他們英文很好,是醫生,其中一個是達士(原文譯作達斯)。文章收在延安政協網站。\n\n根據當年的報紙記述,達士和同伴們從新聞裏得知中國需要醫藥援助,遂決定赴華。他們設法從乘船到緬甸仰光,在那裏加入了緬甸華僑救護隊,經新加坡輾轉抵達香港,然後進入廣州。\n\n因為廣州受到日本空軍密集轟炸,醫療隊撤往別處,最後到了惠州。\n\n印度當地報紙發表了達士從中國給母親寫的信。他在信裏描述了自己在華南的見聞。\n\n往事歷歷\n\n轟炸的淒厲、傾塌的樓房、瓦礫灰燼、殘缺散落的屍骸,他們都目睹了。\n\n當地街頭,轟炸過後一片狼藉,殘軀斷肢遍地。達士和救護隊的同伴們徵得部隊指揮官批准去收拾屍骸,「因為中國人迷信,不碰死屍,生怕碰了就會鬼魂附體」,他在給母親的信裏解釋。\n\n達士有一次在家信裏講了一件事,瑪諾什今天看了還是驚訝不已。\n\n事情是這樣的。一次日軍轟炸過後,他和同伴去救治傷兵,對方卻說,先別管傷口,先給他們找點吃的,餓壞了。結果,他到一個被遺棄的商店把食物一掃而光,拿去給那些饑餓不堪的傷員果腹。\n\n\"那可是一個21歲的小伙子第一次打劫商店啊,即便是兵荒馬亂,店主生死、去向不明,」女兒感慨,\"可以想像當時他多不容易。他還得學會用武器,萬一遭到襲擊可以自衛。\"\n\n日機轟炸廣州時,當地的警察局也人去樓空。達士和伙伴們還到警察局庫房找到了槍彈,把自己武裝起來,給傷兵補足彈藥。\n\n剪報裏還有更驚險的。達士在給母親的信中說,他們在一次穿越邊境時,黑暗中不知哪兒打來一發子彈,從他膝蓋下方擦過,幸而只傷到皮肉,他沒有止步,而是忍痛繼續前行。\n\n他用了\"一瘸一拐\"這個詞,人們才得以推斷他傷得不輕。\n\n他跟遠在故鄉的母親的通信持續了兩年。故鄉在當時印度東北部阿薩姆地區的西隆(Shillong,...\\nThe previous content can be summarized as follows:","input":"","output":"\"我們的祖國是印度。我們在報上讀到日軍如何破壞村莊,殺害無辜平民。當一九三七年中國戰事爆發後,印度立即發起一種抵制日貨運動。跟著我們聽到在仰光組成了一個救護隊,我們便自動參加。\"","meta":{"Dataset":"xP3","Gen":"COL","IFT":true,"Lang":"ML","Multi-round Dialog":false,"Preference":false,"SFT":false,"Task":"MT","origin_path":"Alpaca-CoT\/xP3\/zh\/merged_zh.jsonl"},"text":"Content: 這段話出自1939年2月22日的香港《星島晨報》一篇報道,《兩位印度的中國友人在惠州》,署名\"本報特派東江記者徐飛\"。\n\n這張剪報來自一本老式學生練習簿,主人是瑪諾什·巴魯阿,BBC英國廣播公司國際台南亞區編輯。她的父親正是當年為特派記者徐飛用英語寫下這段話的兩名印度人之一,達士(Ajay Kumar Das)。\n\nBBC英國廣播公司國際台南亞區編輯瑪諾什·巴魯阿\n\n小紅本\n\n瑪諾什·巴魯阿在加爾各答上小學的時候,奶奶給了她一個紅色硬皮封面的練習簿,不厚,裏面貼了不少舊剪報。\n\n她說:\"我上小學的時候,有一天奶奶給了我一個剪貼本,裏面有各式各樣的剪紙粘貼,其中有兩張中文剪報。奶奶叮囑我好好保存這個本子,等我長大了,讀讀這些文章,我會為自己的父親感到驕傲。\"\n\n那裏有她父親的一段鮮為人知的海外歷險經歷,神秘又複雜。\n\n瑪諾什是3個孩子裏的老大。關於父親年輕時在國外的經歷 ,她聽家里長輩說過,但具體情節了解不多,沒什麼感性印象。剪貼本裏那兩張年代十分久遠的外國報紙剪報,發黃、發脆,上面都是中文,她看不懂。\n\n因為是長輩的往事,所以一直沒太在意。父親2014年去世後,家裏凖備把一些舊的文件資料數據化,便於保存。\n\n最近,她在整理故紙時忽然想到:為什麼不可以請國際台中文科同事幫忙,看看剪貼簿裏那張1939年的香港報紙剪報,到底寫了些什麼?\n\n結果,她驚訝地發現:原來父親也曾是個熱血青年。奶奶當年說得對,這些記載讓她為有這樣一個父親而驕傲。\n\n在發黃的舊剪報的字裏行間,達士先生那一段鮮為人知的故事重見天日,變得鮮活靈動、有血有肉。\n\n中國告急\n\n《星島晨報》是1938年僑商胡文虎在香港創辦的星島報系3份中文報紙之一,另有《星島日報》和《星島晚報》。日本佔領香港期間,《星島日報》改名《香島日報》,1945年8月底日本投降後恢復成《星島日報》。\n\n1938年,達士21歲,是大學醫科3年級學生,離畢業還有一年。大學所在地邁門辛(Mymensingh)當年是印度的一部分,現在屬於孟加拉國。\n\n當時印度在爭取獨立,中國在抵抗日本侵略,歐洲則大戰一觸即發。\n\n1937年日本侵華戰爭爆發後,中國國民政府和共產黨向世界發出呼籲,請求國際社會提供醫療援助。\n\n印度國大黨主席尼赫魯派了一支5人醫療隊,其中就有廣為人知的柯棣華大夫。\n\n不過,達士和另一位醫科學生傑克拉巴迪的故事,現在能找到的記錄很少。在介紹緬甸華僑救護隊的資料文檔裏,大部分只是提到隊員裏包含兩名印度醫生。\n\n當年救護隊成員之一的馬興寅在《緬甸華僑救護隊回國抗日親歷記》一文中回憶當時救護隊成立的經過,其中提到兩名印度醫生,還寫下了他們的名字,提到他們英文很好,是醫生,其中一個是達士(原文譯作達斯)。文章收在延安政協網站。\n\n根據當年的報紙記述,達士和同伴們從新聞裏得知中國需要醫藥援助,遂決定赴華。他們設法從乘船到緬甸仰光,在那裏加入了緬甸華僑救護隊,經新加坡輾轉抵達香港,然後進入廣州。\n\n因為廣州受到日本空軍密集轟炸,醫療隊撤往別處,最後到了惠州。\n\n印度當地報紙發表了達士從中國給母親寫的信。他在信裏描述了自己在華南的見聞。\n\n往事歷歷\n\n轟炸的淒厲、傾塌的樓房、瓦礫灰燼、殘缺散落的屍骸,他們都目睹了。\n\n當地街頭,轟炸過後一片狼藉,殘軀斷肢遍地。達士和救護隊的同伴們徵得部隊指揮官批准去收拾屍骸,「因為中國人迷信,不碰死屍,生怕碰了就會鬼魂附體」,他在給母親的信裏解釋。\n\n達士有一次在家信裏講了一件事,瑪諾什今天看了還是驚訝不已。\n\n事情是這樣的。一次日軍轟炸過後,他和同伴去救治傷兵,對方卻說,先別管傷口,先給他們找點吃的,餓壞了。結果,他到一個被遺棄的商店把食物一掃而光,拿去給那些饑餓不堪的傷員果腹。\n\n\"那可是一個21歲的小伙子第一次打劫商店啊,即便是兵荒馬亂,店主生死、去向不明,」女兒感慨,\"可以想像當時他多不容易。他還得學會用武器,萬一遭到襲擊可以自衛。\"\n\n日機轟炸廣州時,當地的警察局也人去樓空。達士和伙伴們還到警察局庫房找到了槍彈,把自己武裝起來,給傷兵補足彈藥。\n\n剪報裏還有更驚險的。達士在給母親的信中說,他們在一次穿越邊境時,黑暗中不知哪兒打來一發子彈,從他膝蓋下方擦過,幸而只傷到皮肉,他沒有止步,而是忍痛繼續前行。\n\n他用了\"一瘸一拐\"這個詞,人們才得以推斷他傷得不輕。\n\n他跟遠在故鄉的母親的通信持續了兩年。故鄉在當時印度東北部阿薩姆地區的西隆(Shillong,...\\nThe previous content can be summarized as follows: \"我們的祖國是印度。我們在報上讀到日軍如何破壞村莊,殺害無辜平民。當一九三七年中國戰事爆發後,印度立即發起一種抵制日貨運動。跟著我們聽到在仰光組成了一個救護隊,我們便自動參加。\""} -{"instruction":"Content: 敖德薩工會大樓失火現場,照片中可以看到有人站在窗戶邊緣躲避濃煙、等待救援。\n\n有關部門並未說明詳情,也不清楚兩派的衝突與大樓起火之間的關係。\n\n不過,有來自當地的報道說,親俄派人士佔據了工會大樓,並向外面聚集的民眾開槍,隨後有人向大樓投擲汽油彈,導致大樓起火。\n\n據稱,死者大多是被濃煙嗆死或者是從樓上跳下時摔死。\n\n烏克蘭內政部原先說,共有38人死亡,但是後來將死亡數字修改為31人。\n\n先前,親俄派人士與支持政府的民眾在當地街頭發生衝突,造成3人死亡,這是烏克蘭危機發生數個星期以來,該國南部首次出現暴力事件。\n\n在先前被政府說是已經「有一半」被政府軍控制的東部城市斯洛維揚斯克,據稱當地市中心陷入親俄武裝與政府軍之間的激戰。\n\n烏克蘭局勢變化受到了西方國家的關注,美國總統奧巴馬和到訪的德國總理默克爾在白宮就此進行了會商。\n\n奧巴馬在隨後舉行的聯合記者會上,指責俄國違反了國際法,要是俄國「不轉向」,就可能對其實施進一步的制裁。\n\n奧巴馬還說,烏克蘭東部的騷亂起因並不是「自發性的抗爭」、他形容此一說法是「掩蓋事實」,因為親俄武裝使用導彈作為武器。\n\n聯合國安理會應俄國的要求在周五(2日)召開緊急會議,俄國駐聯合國代表在會上警告,如果烏克蘭繼續在其東部地區進行軍事行動,將會有「毀滅性的後果」。\n\n但是在會上,美國代表則形容烏克蘭的軍事行動是「適切而且恰當的」。\n\n(撰稿:威克,責編:友義)\n\n\\nThe previous content can be summarized as follows:","input":"","output":"烏克蘭黑海城市敖德薩的警方說,在支持政府與親俄兩派人士的衝突中,工會大樓起火,造成多人死傷。","meta":{"Dataset":"xP3","Gen":"COL","IFT":true,"Lang":"ML","Multi-round Dialog":false,"Preference":false,"SFT":false,"Task":"MT","origin_path":"Alpaca-CoT\/xP3\/zh\/merged_zh.jsonl"},"text":"Content: 敖德薩工會大樓失火現場,照片中可以看到有人站在窗戶邊緣躲避濃煙、等待救援。\n\n有關部門並未說明詳情,也不清楚兩派的衝突與大樓起火之間的關係。\n\n不過,有來自當地的報道說,親俄派人士佔據了工會大樓,並向外面聚集的民眾開槍,隨後有人向大樓投擲汽油彈,導致大樓起火。\n\n據稱,死者大多是被濃煙嗆死或者是從樓上跳下時摔死。\n\n烏克蘭內政部原先說,共有38人死亡,但是後來將死亡數字修改為31人。\n\n先前,親俄派人士與支持政府的民眾在當地街頭發生衝突,造成3人死亡,這是烏克蘭危機發生數個星期以來,該國南部首次出現暴力事件。\n\n在先前被政府說是已經「有一半」被政府軍控制的東部城市斯洛維揚斯克,據稱當地市中心陷入親俄武裝與政府軍之間的激戰。\n\n烏克蘭局勢變化受到了西方國家的關注,美國總統奧巴馬和到訪的德國總理默克爾在白宮就此進行了會商。\n\n奧巴馬在隨後舉行的聯合記者會上,指責俄國違反了國際法,要是俄國「不轉向」,就可能對其實施進一步的制裁。\n\n奧巴馬還說,烏克蘭東部的騷亂起因並不是「自發性的抗爭」、他形容此一說法是「掩蓋事實」,因為親俄武裝使用導彈作為武器。\n\n聯合國安理會應俄國的要求在周五(2日)召開緊急會議,俄國駐聯合國代表在會上警告,如果烏克蘭繼續在其東部地區進行軍事行動,將會有「毀滅性的後果」。\n\n但是在會上,美國代表則形容烏克蘭的軍事行動是「適切而且恰當的」。\n\n(撰稿:威克,責編:友義)\n\n\\nThe previous content can be summarized as follows: 烏克蘭黑海城市敖德薩的警方說,在支持政府與親俄兩派人士的衝突中,工會大樓起火,造成多人死傷。"} -{"instruction":"Doc to summarize: 谷歌CEO桑達爾·皮查伊(Sundar Pichai)出生於印度金奈。(圖片來源:Justin Sullivan\/Getty)\n\n1998年在斯坦福大學,這個互聯網巨頭公司的兩位創始人,研究生謝爾蓋·布林(Sergey Brin)和拉里·佩奇(Larry Page),以及大學教師特裏·威諾格拉德(Terry Winograd)和拉傑夫·莫特瓦尼(Rajeev Motwani),共同研發出一種算法,徹底變革了網絡搜索,並創立了一家資產達數十億美元的公司。\n\n莫特瓦尼是谷歌第一個員工克雷格·西爾弗斯坦(Craig Silverstein)的大學老師,據說即使是現在,他說話的語調仍然與現年43歲的谷歌新任CEO桑達爾·皮查伊(Sundar Pichai)一樣低沉有力。這兩個人都有著過人的智力和積極性,但同時也有著謙卑的心態,而這些都是與印度高管日益相關的特質。他們在美國讀研前,都曾就讀於印度理工學院。\n\n皮查伊是一個工程師的兒子,住在南部城市金奈,對他而言,能去美國留學實屬不易。他到美國的機票錢比他父親的年薪還高,這導致他半年不能與他未來的妻子通電話。他與他未來的妻子是在印度上學時認識的。\n\n他2004年加入谷歌時,曾在麥肯錫(McKinsey)管理諮詢公司和微處理器供應商應用材料(Applied Materials)公司工作過。作為谷歌非常成功的Chrome瀏覽器的設計師,皮查伊聲名鵲起,長期以來一直擔任重要職位。\n\n模式轉變\n\n歷任CEO大多都以自我為中心、比較強勢並且容易造成不和,習慣於通過從容對抗來提高員工個人、團隊和競爭公司的質量、競爭力和生產力,但他的行事風格與之不同。他轉變了公司目前的管理風格,將管理重心從處理對抗轉變為避免對抗。這是一種柔和的風格,如今一些新一代印度高管都具有這種風格。\n\n這是微軟(Microsoft)讓薩蒂亞·納德拉(Satya Nadellaits)取代史蒂夫·鮑爾默(Steve Ballmer)擔任第三任CEO的原因之一。他不是受歡迎的唯一印度高管。日本跨國電信公司軟銀(SoftBank)也讓谷歌高管尼科什·阿羅拉(Nikesh Arora)擔任其公司總裁。Adobe目前由山塔努·納拉延(Shantanu Narayen)管理運營。弗朗西斯科·德索薩(Francisco D'Souza)是IT諮詢公司高知特(Cognizant)的領導。而桑傑·梅赫羅特拉(Sanjay Mehrotra)則是內存巨頭閃迪(SanDisk)公司的領導。\n\n在全球科技公司中,印度人擔任領導的還有很多。伊凡·梅內塞斯(Ivan Menezes)是全球最大烈酒生產商帝亞吉歐(Diageo)的CEO。萬事達(MasterCard)公司的老總是阿傑伊·邦格阿(Ajay Banga)。百事(PepsiCo)公司是由英德拉·努伊(Indra Nooyi)領導,她是最近高調躋身高層的唯一印度女性領導。\n\n百事公司是由英德拉·努伊(Indra Nooyi)領導,她是最近躋身高層的唯一印度女性領導。(圖片來源:Amy Sussman\/Getty)\n\n他們通往成功的秘訣遠遠超出他們在公司職位上步步高升的能力。在硅谷的員工中,大約有6%是印度人。不過,在硅谷創業公司中,有超過15%的公司的創始人就在那6%的人當中。\n\n維韋克·瓦德瓦教授(Vivek Wadhwa)在2014年進行的一項研究顯示,這比那些來自英國、中國、台灣和日本的人數總和還多。維韋克·瓦德瓦是一位企業家,出生於印度,在美國奇點大學、斯坦福大學和杜克大學擔任學術職務。研究表明,在整個美國,近三分之一的創業公司是由印度人創辦的,數量上超過其他七個移民群體總和。\n\n根據2010年人口普查資料,最新的數據顯示,印度裔美國人的平均家庭年收入最高,為86,135美元,而美國人口總年收入為51,914美元。\n\n頂尖人才\n\n那麼,是什麼讓這些印度人取得如此驚人的成功呢?\n\n有些因素是顯而易見的。其他美國移民需要學習新語言。但是幾乎所有的印度高等教育都以英語授課,這是該國的殖民地歷史遺留下來的傳統。\n\n印度企業家協會(The Indus Entrepreneurs)硅谷分會會長、風險投資人維克提什·舒克拉(Venktesh...\\nSummary in the same language as the doc:","input":"","output":"谷歌(Google)的誕生離不開一個印度人。","meta":{"Dataset":"xP3","Gen":"COL","IFT":true,"Lang":"ML","Multi-round Dialog":false,"Preference":false,"SFT":false,"Task":"MT","origin_path":"Alpaca-CoT\/xP3\/zh\/merged_zh.jsonl"},"text":"Doc to summarize: 谷歌CEO桑達爾·皮查伊(Sundar Pichai)出生於印度金奈。(圖片來源:Justin Sullivan\/Getty)\n\n1998年在斯坦福大學,這個互聯網巨頭公司的兩位創始人,研究生謝爾蓋·布林(Sergey Brin)和拉里·佩奇(Larry Page),以及大學教師特裏·威諾格拉德(Terry Winograd)和拉傑夫·莫特瓦尼(Rajeev Motwani),共同研發出一種算法,徹底變革了網絡搜索,並創立了一家資產達數十億美元的公司。\n\n莫特瓦尼是谷歌第一個員工克雷格·西爾弗斯坦(Craig Silverstein)的大學老師,據說即使是現在,他說話的語調仍然與現年43歲的谷歌新任CEO桑達爾·皮查伊(Sundar Pichai)一樣低沉有力。這兩個人都有著過人的智力和積極性,但同時也有著謙卑的心態,而這些都是與印度高管日益相關的特質。他們在美國讀研前,都曾就讀於印度理工學院。\n\n皮查伊是一個工程師的兒子,住在南部城市金奈,對他而言,能去美國留學實屬不易。他到美國的機票錢比他父親的年薪還高,這導致他半年不能與他未來的妻子通電話。他與他未來的妻子是在印度上學時認識的。\n\n他2004年加入谷歌時,曾在麥肯錫(McKinsey)管理諮詢公司和微處理器供應商應用材料(Applied Materials)公司工作過。作為谷歌非常成功的Chrome瀏覽器的設計師,皮查伊聲名鵲起,長期以來一直擔任重要職位。\n\n模式轉變\n\n歷任CEO大多都以自我為中心、比較強勢並且容易造成不和,習慣於通過從容對抗來提高員工個人、團隊和競爭公司的質量、競爭力和生產力,但他的行事風格與之不同。他轉變了公司目前的管理風格,將管理重心從處理對抗轉變為避免對抗。這是一種柔和的風格,如今一些新一代印度高管都具有這種風格。\n\n這是微軟(Microsoft)讓薩蒂亞·納德拉(Satya Nadellaits)取代史蒂夫·鮑爾默(Steve Ballmer)擔任第三任CEO的原因之一。他不是受歡迎的唯一印度高管。日本跨國電信公司軟銀(SoftBank)也讓谷歌高管尼科什·阿羅拉(Nikesh Arora)擔任其公司總裁。Adobe目前由山塔努·納拉延(Shantanu Narayen)管理運營。弗朗西斯科·德索薩(Francisco D'Souza)是IT諮詢公司高知特(Cognizant)的領導。而桑傑·梅赫羅特拉(Sanjay Mehrotra)則是內存巨頭閃迪(SanDisk)公司的領導。\n\n在全球科技公司中,印度人擔任領導的還有很多。伊凡·梅內塞斯(Ivan Menezes)是全球最大烈酒生產商帝亞吉歐(Diageo)的CEO。萬事達(MasterCard)公司的老總是阿傑伊·邦格阿(Ajay Banga)。百事(PepsiCo)公司是由英德拉·努伊(Indra Nooyi)領導,她是最近高調躋身高層的唯一印度女性領導。\n\n百事公司是由英德拉·努伊(Indra Nooyi)領導,她是最近躋身高層的唯一印度女性領導。(圖片來源:Amy Sussman\/Getty)\n\n他們通往成功的秘訣遠遠超出他們在公司職位上步步高升的能力。在硅谷的員工中,大約有6%是印度人。不過,在硅谷創業公司中,有超過15%的公司的創始人就在那6%的人當中。\n\n維韋克·瓦德瓦教授(Vivek Wadhwa)在2014年進行的一項研究顯示,這比那些來自英國、中國、台灣和日本的人數總和還多。維韋克·瓦德瓦是一位企業家,出生於印度,在美國奇點大學、斯坦福大學和杜克大學擔任學術職務。研究表明,在整個美國,近三分之一的創業公司是由印度人創辦的,數量上超過其他七個移民群體總和。\n\n根據2010年人口普查資料,最新的數據顯示,印度裔美國人的平均家庭年收入最高,為86,135美元,而美國人口總年收入為51,914美元。\n\n頂尖人才\n\n那麼,是什麼讓這些印度人取得如此驚人的成功呢?\n\n有些因素是顯而易見的。其他美國移民需要學習新語言。但是幾乎所有的印度高等教育都以英語授課,這是該國的殖民地歷史遺留下來的傳統。\n\n印度企業家協會(The Indus Entrepreneurs)硅谷分會會長、風險投資人維克提什·舒克拉(Venktesh...\\nSummary in the same language as the doc: 谷歌(Google)的誕生離不開一個印度人。"} -{"instruction":"韓媒:韓國國內出現核武裝呼聲\\n韓國第一艘「宙斯盾」驅逐艦 「世宗大王」號上的導彈發射艙。\n\n韓聯社說,針對朝鮮的核試,韓執政黨和部分專家提出了韓國也應進行核武裝的主張。\n\n報道稱,最先提出擁有核武器主張的是執政的新世界黨。\n\n執政黨\n\n該黨代表黃祐呂星期三在高層聯席會議上表示,朝鮮的核試是挑釁行為,朝鮮半島的軍事平衡變得尤其重要。\n\n韓聯社引述黃祐呂說,韓國要針對日漸升級的東北亞軍事緊張局勢,以至可能會出現的核開發多米諾現象做好準備。\n\n黃祐呂在星期五還表示,韓國要針對核武器制定應對機制,重新找回朝韓之間軍事上的平衡。\n\n新世界黨代表鄭夢準則表示,韓國需要採取與過去不同的根本解決問題的對策,有必要確保自身的核遏制力。\n\n報道說,韓國部分專家認為,就算韓國不馬上擁有核武,也有必要分階段制定戰略。\n\n專家\n\n韓國情報院下屬國家安全戰略研究所一位專家指出,韓國需要考慮可以使用的一切手段。\n\n他說,通過第三次核試,朝鮮擁核已成既定事實。因此,韓國可以先宣佈放棄朝鮮半島無核化共同聲明,然後再從美國引進戰術核武器,隨後再開發核武器。\n\n他認為,美國雖說會提供核保護傘,但韓國不太相信這把從未打開過的核保護傘。\n\n此外,擁有核武需要退出核不擴散條約等國際組織。因此有韓國專家認為,應在合法框架內先提高核開發能力,至少在製造核武之前,先確保鈾濃縮、核燃料處理等技術和設施。\n\n與内文相關的鏈接\n\n相關新聞話題\n\n\\n\\ntl;dr:","input":"","output":"韓國媒體說,隨著朝鮮通過第三次核試驗實際上已擁有核武器,韓國國內亦出現核武裝呼聲。","meta":{"Dataset":"xP3","Gen":"COL","IFT":true,"Lang":"ML","Multi-round Dialog":false,"Preference":false,"SFT":false,"Task":"MT","origin_path":"Alpaca-CoT\/xP3\/zh\/merged_zh.jsonl"},"text":"韓媒:韓國國內出現核武裝呼聲\\n韓國第一艘「宙斯盾」驅逐艦 「世宗大王」號上的導彈發射艙。\n\n韓聯社說,針對朝鮮的核試,韓執政黨和部分專家提出了韓國也應進行核武裝的主張。\n\n報道稱,最先提出擁有核武器主張的是執政的新世界黨。\n\n執政黨\n\n該黨代表黃祐呂星期三在高層聯席會議上表示,朝鮮的核試是挑釁行為,朝鮮半島的軍事平衡變得尤其重要。\n\n韓聯社引述黃祐呂說,韓國要針對日漸升級的東北亞軍事緊張局勢,以至可能會出現的核開發多米諾現象做好準備。\n\n黃祐呂在星期五還表示,韓國要針對核武器制定應對機制,重新找回朝韓之間軍事上的平衡。\n\n新世界黨代表鄭夢準則表示,韓國需要採取與過去不同的根本解決問題的對策,有必要確保自身的核遏制力。\n\n報道說,韓國部分專家認為,就算韓國不馬上擁有核武,也有必要分階段制定戰略。\n\n專家\n\n韓國情報院下屬國家安全戰略研究所一位專家指出,韓國需要考慮可以使用的一切手段。\n\n他說,通過第三次核試,朝鮮擁核已成既定事實。因此,韓國可以先宣佈放棄朝鮮半島無核化共同聲明,然後再從美國引進戰術核武器,隨後再開發核武器。\n\n他認為,美國雖說會提供核保護傘,但韓國不太相信這把從未打開過的核保護傘。\n\n此外,擁有核武需要退出核不擴散條約等國際組織。因此有韓國專家認為,應在合法框架內先提高核開發能力,至少在製造核武之前,先確保鈾濃縮、核燃料處理等技術和設施。\n\n與内文相關的鏈接\n\n相關新聞話題\n\n\\n\\ntl;dr: 韓國媒體說,隨著朝鮮通過第三次核試驗實際上已擁有核武器,韓國國內亦出現核武裝呼聲。"} -{"instruction":"塔兰吉雷河是一条多年生河,位于东非大裂谷的东部分支,位于东非坦桑尼亚北部。\nIs that a paraphrase of the following sentence?\n塔兰吉雷河是一条多年的河流,位于东非的东非大裂谷的东部分支,位于坦桑尼亚北部的东非。?\nYes or No.","input":"","output":"Yes","meta":{"Dataset":"xP3","Gen":"COL","IFT":true,"Lang":"ML","Multi-round Dialog":false,"Preference":false,"SFT":false,"Task":"MT","origin_path":"Alpaca-CoT\/xP3\/zh\/merged_zh.jsonl"},"text":"塔兰吉雷河是一条多年生河,位于东非大裂谷的东部分支,位于东非坦桑尼亚北部。\nIs that a paraphrase of the following sentence?\n塔兰吉雷河是一条多年的河流,位于东非的东非大裂谷的东部分支,位于坦桑尼亚北部的东非。?\nYes or No. Yes"} -{"instruction":"Title: 国际妇运人士穿越韩朝分界线但未能徒步\\nGiven the above title of an imaginary article, imagine the article.\\n","input":"","output":"三十名妇权人士原定徒步越过非军事区。\n\n这群妇运人士分别来自15个国家,本来计划于星期天(5月24日)徒步穿过板门店,走过非军事区。\n\n但建议最后遭双方反对。朝鲜容许一辆韩国的公车穿过边界线,载送她们至韩国。\n\n从朝鲜出发前,妇运人士摇旗呐喊。坐车到达韩国时,大批记者已在守候。\n\n虽然运动不如计划进行,但81岁的斯泰纳姆进入韩国边界後,接受访问仍表示:\"我们成功担任民间外交官。我们感到十分正面,并得到广大的支持。\"\n\n除斯泰纳姆外,两位诺贝尔奖得主,北爱尔兰的梅里德·科里根·麦奎尔及利比利亚的雷玛·博维。\n\n参与跨越非军事区活动的活动人士最终只能搭乘旅游大巴过境。\n\n81岁的斯泰纳姆认为这次行动成功而正面。\n\n韩战1950年爆发,三年後双方於板门店签署停火协议。因此,韩战并未正式结束,韩朝分裂今年踏入七十周年。虽然名为非军事区,事实上布满了望塔丶地雷等。\n\n妇运人士希望藉此机会,唤起世人对韩朝情况及永久和平协的关注。她们亦提及很多家庭因内战,自此音讯隔绝。\n\n不过,有些人认为是次行动会受到朝鲜利用,而她们亦忽视朝鲜差劣的人权状况。早前,妇运分子曾於平壤访问。朝鲜官媒曾引述她们称赞金正恩的言论,不过她们称绝无其事。\n\n斯泰纳姆反驳批评,认为她们专注与人交流,并带出韩朝分裂对人民的伤害。\n\n联合国秘书长潘基文原定周四前往南朝鲜边境的开城工业园参观,不过上周朝鲜方面突然取消同意潘基文到访当地的决定。\n\n(编译:蔡晓颖 责编:叶靖斯)\n\n如果您对这篇报道有任何意见或感想,欢迎使用下表给我们发来您的意见:","meta":{"Dataset":"xP3","Gen":"COL","IFT":true,"Lang":"ML","Multi-round Dialog":false,"Preference":false,"SFT":false,"Task":"MT","origin_path":"Alpaca-CoT\/xP3\/zh\/merged_zh.jsonl"},"text":"Title: 国际妇运人士穿越韩朝分界线但未能徒步\\nGiven the above title of an imaginary article, imagine the article.\\n 三十名妇权人士原定徒步越过非军事区。\n\n这群妇运人士分别来自15个国家,本来计划于星期天(5月24日)徒步穿过板门店,走过非军事区。\n\n但建议最后遭双方反对。朝鲜容许一辆韩国的公车穿过边界线,载送她们至韩国。\n\n从朝鲜出发前,妇运人士摇旗呐喊。坐车到达韩国时,大批记者已在守候。\n\n虽然运动不如计划进行,但81岁的斯泰纳姆进入韩国边界後,接受访问仍表示:\"我们成功担任民间外交官。我们感到十分正面,并得到广大的支持。\"\n\n除斯泰纳姆外,两位诺贝尔奖得主,北爱尔兰的梅里德·科里根·麦奎尔及利比利亚的雷玛·博维。\n\n参与跨越非军事区活动的活动人士最终只能搭乘旅游大巴过境。\n\n81岁的斯泰纳姆认为这次行动成功而正面。\n\n韩战1950年爆发,三年後双方於板门店签署停火协议。因此,韩战并未正式结束,韩朝分裂今年踏入七十周年。虽然名为非军事区,事实上布满了望塔丶地雷等。\n\n妇运人士希望藉此机会,唤起世人对韩朝情况及永久和平协的关注。她们亦提及很多家庭因内战,自此音讯隔绝。\n\n不过,有些人认为是次行动会受到朝鲜利用,而她们亦忽视朝鲜差劣的人权状况。早前,妇运分子曾於平壤访问。朝鲜官媒曾引述她们称赞金正恩的言论,不过她们称绝无其事。\n\n斯泰纳姆反驳批评,认为她们专注与人交流,并带出韩朝分裂对人民的伤害。\n\n联合国秘书长潘基文原定周四前往南朝鲜边境的开城工业园参观,不过上周朝鲜方面突然取消同意潘基文到访当地的决定。\n\n(编译:蔡晓颖 责编:叶靖斯)\n\n如果您对这篇报道有任何意见或感想,欢迎使用下表给我们发来您的意见:"} -{"instruction":"在传统LQG设定中,当系统维度很大时,实现LQG控制器会有困难。降阶LQG问题(reduced-order LQG problem)也称为固定阶数LQG问题(fixed-order LQG problem)先设定了LQG控制的状态数。因为分离原理已不适用,此问题会更不容易求解,而且其解也不唯一。即使如此,降阶LQG问题已有不少的数值演算法可以求解相关的最佳轨迹问题,其中建构了局部最佳化的降阶LQG问题的充份及必要条件。\n\nWith reference to the above context, 需要对LQG控制器做什么才能克服LQG问题?","input":"","output":"problem)先设定了LQG控制的状态数。","meta":{"Dataset":"xP3","Gen":"COL","IFT":true,"Lang":"ML","Multi-round Dialog":false,"Preference":false,"SFT":false,"Task":"MT","origin_path":"Alpaca-CoT\/xP3\/zh\/merged_zh.jsonl"},"text":"在传统LQG设定中,当系统维度很大时,实现LQG控制器会有困难。降阶LQG问题(reduced-order LQG problem)也称为固定阶数LQG问题(fixed-order LQG problem)先设定了LQG控制的状态数。因为分离原理已不适用,此问题会更不容易求解,而且其解也不唯一。即使如此,降阶LQG问题已有不少的数值演算法可以求解相关的最佳轨迹问题,其中建构了局部最佳化的降阶LQG问题的充份及必要条件。\n\nWith reference to the above context, 需要对LQG控制器做什么才能克服LQG问题? problem)先设定了LQG控制的状态数。"} -{"instruction":"在玛莎被发现之后,安娜嫁给了一个名叫乔治艾森豪尔的男人。 Question: 安娜被发现后,玛莎嫁给了一个名叫乔治艾森豪尔的男人。 Paraphrase or not?","input":"","output":"No","meta":{"Dataset":"xP3","Gen":"COL","IFT":true,"Lang":"ML","Multi-round Dialog":false,"Preference":false,"SFT":false,"Task":"MT","origin_path":"Alpaca-CoT\/xP3\/zh\/merged_zh.jsonl"},"text":"在玛莎被发现之后,安娜嫁给了一个名叫乔治艾森豪尔的男人。 Question: 安娜被发现后,玛莎嫁给了一个名叫乔治艾森豪尔的男人。 Paraphrase or not? No"} -{"instruction":"决定是否向他表白。 如果你打算告诉他一切,就不要一拖再拖。 保持轻松的气氛。 不要因为他的害羞而止步不前。 即使被拒绝,也要接受他的决定。\n\nGiven the above summary, write a detailed text in Chinese for it.","input":"","output":"你迟早需要作出决定——告诉他你喜欢他,或者保持沉默。暗恋一个人时,猜测对方的心意是最痛苦的事情。所以,不管你多么害怕,都得作出决定,因为这对你是一种解脱。最后的结局不外乎两种:你们俩的关系更近一层;或者你断了对他的念想,重新开始。不管是哪种结局,你都不用再担心。 诚实往往是最佳的对策。向他坦白一切吧,你会觉得胸口的大石头终于落了地——不管结局如何,你都问心无愧。将来你也不会因为后悔而不断埋怨自己。换句话说,几周之后,你不会不停地问自己“要是我当时表白了会怎么样?”。告诉他你希望和他继续做朋友,而且你不想每次见面都别别扭扭的。通常,他会接受你的解释,并且在和你正常交往的同时,他也会思考下一步应该怎么做。 另一方面,如果你真的不想向他表白,或者你有充分的理由相信表白是下下之选,那么就心甘情愿地放弃他吧。举个例子,如果他已经有了交往的对象,那你就不应该向他表白。 你可能想等到时机成熟的时候再告诉他你的心意。可是,这一刻也许永远不会到来。在你按兵不动的同时,对方可能早就对你失去了兴趣,或者他会以为你不再喜欢他了。所以 ,一旦定下和他单独相处的时间和地点,就不要变来变去。只要抓住机会,你的恋情一定会有柳暗花明的一天。 如果对方和你都在一个学校学习,那你可以和他约好放学后在一个僻静的地方见面。这个地方不一定非得荒无人烟,只要相对隐蔽就可以了。比如,坐在公园的长凳上表白就挺不错的。 表白时,你不需要太过严肃或者激动。事实上,过激的表现可能会把对方吓跑。所以,谈话时的气氛非常重要;只有在自在轻松的气氛下,你才更有可能从他那里得到诚实的答案。 其实,你根本不用那么坦白。与其直接说你喜欢他,不如邀请他和你共度一段美好的时光。比如,你可以这么开口:“这节课太有意思了。你要不要一起吃午饭?对了,这周末有美食展,咋俩一起去怎么样?我听说到时候会有各种各样的小吃!” 就算你试着不给他压力,他还是会不好意思,这点你不用担心。不表态或者扭扭捏捏并不表示他不喜欢你,这只能说明他不知道如何向你开口。给他足够的时间,让他回去好好想想你的话;等他准备好了,再鼓励他给你答复。 在给你答复这件事上,不要让他感到丁点的压力。当你向他表白或者发出约会的邀请后,对方通常需要1到2天的处理时间。你可以这么说,“慢慢来,不着急。你不用今天答复我。” 不管结局如何,你都要相信他的能力,尊重他所做的决定。如果他不喜欢你,那就轻描淡写地说句“知道了”,然后转身离开。别老拿同一个问题烦他,或者试图改变他的心意。而另一方面,如果他接受了你的邀请或者示爱,那可就恭喜你啦! 建议你在被拒绝后的几天里减少和他见面的时间。虽说没有必要彻底避开他,但是如果你还是觉得伤心难过、无法释怀,那么暂时和他保持一些距离能够帮助你平复心情。","meta":{"Dataset":"xP3","Gen":"COL","IFT":true,"Lang":"ML","Multi-round Dialog":false,"Preference":false,"SFT":false,"Task":"MT","origin_path":"Alpaca-CoT\/xP3\/zh\/merged_zh.jsonl"},"text":"决定是否向他表白。 如果你打算告诉他一切,就不要一拖再拖。 保持轻松的气氛。 不要因为他的害羞而止步不前。 即使被拒绝,也要接受他的决定。\n\nGiven the above summary, write a detailed text in Chinese for it. 你迟早需要作出决定——告诉他你喜欢他,或者保持沉默。暗恋一个人时,猜测对方的心意是最痛苦的事情。所以,不管你多么害怕,都得作出决定,因为这对你是一种解脱。最后的结局不外乎两种:你们俩的关系更近一层;或者你断了对他的念想,重新开始。不管是哪种结局,你都不用再担心。 诚实往往是最佳的对策。向他坦白一切吧,你会觉得胸口的大石头终于落了地——不管结局如何,你都问心无愧。将来你也不会因为后悔而不断埋怨自己。换句话说,几周之后,你不会不停地问自己“要是我当时表白了会怎么样?”。告诉他你希望和他继续做朋友,而且你不想每次见面都别别扭扭的。通常,他会接受你的解释,并且在和你正常交往的同时,他也会思考下一步应该怎么做。 另一方面,如果你真的不想向他表白,或者你有充分的理由相信表白是下下之选,那么就心甘情愿地放弃他吧。举个例子,如果他已经有了交往的对象,那你就不应该向他表白。 你可能想等到时机成熟的时候再告诉他你的心意。可是,这一刻也许永远不会到来。在你按兵不动的同时,对方可能早就对你失去了兴趣,或者他会以为你不再喜欢他了。所以 ,一旦定下和他单独相处的时间和地点,就不要变来变去。只要抓住机会,你的恋情一定会有柳暗花明的一天。 如果对方和你都在一个学校学习,那你可以和他约好放学后在一个僻静的地方见面。这个地方不一定非得荒无人烟,只要相对隐蔽就可以了。比如,坐在公园的长凳上表白就挺不错的。 表白时,你不需要太过严肃或者激动。事实上,过激的表现可能会把对方吓跑。所以,谈话时的气氛非常重要;只有在自在轻松的气氛下,你才更有可能从他那里得到诚实的答案。 其实,你根本不用那么坦白。与其直接说你喜欢他,不如邀请他和你共度一段美好的时光。比如,你可以这么开口:“这节课太有意思了。你要不要一起吃午饭?对了,这周末有美食展,咋俩一起去怎么样?我听说到时候会有各种各样的小吃!” 就算你试着不给他压力,他还是会不好意思,这点你不用担心。不表态或者扭扭捏捏并不表示他不喜欢你,这只能说明他不知道如何向你开口。给他足够的时间,让他回去好好想想你的话;等他准备好了,再鼓励他给你答复。 在给你答复这件事上,不要让他感到丁点的压力。当你向他表白或者发出约会的邀请后,对方通常需要1到2天的处理时间。你可以这么说,“慢慢来,不着急。你不用今天答复我。” 不管结局如何,你都要相信他的能力,尊重他所做的决定。如果他不喜欢你,那就轻描淡写地说句“知道了”,然后转身离开。别老拿同一个问题烦他,或者试图改变他的心意。而另一方面,如果他接受了你的邀请或者示爱,那可就恭喜你啦! 建议你在被拒绝后的几天里减少和他见面的时间。虽说没有必要彻底避开他,但是如果你还是觉得伤心难过、无法释怀,那么暂时和他保持一些距离能够帮助你平复心情。"} -{"instruction":"Given this context \"法拉是電容的國際單位,簡稱法,單位符號為F。是一種國際單位制導出單位,是以發現電磁感應現象的英國物理學家麥可·法拉第的名字而命名的。早期電磁學中的單位和單位制非常混亂。1861年,英國的布萊特和克拉克在《論電量和電阻標準的形成》一文中倡議建立一種統一的實用單位,得到了湯姆生的支持。同年,英國科學促進會成立了以湯姆生為首的六人電標準委員會,引入電阻單位歐姆、電位單位伏特。1881年,巴黎第一屆國際電學家大會增加了電流單位安培,同時引入了電量的實用單位庫侖和電容的實用單位法拉。實用單位制是電磁量中的第三套單位制,附屬於厘米-克-秒制,仍是「絕對」定義。為了更方便檢測,在1893年芝加哥第四屆國際電學家大會上對實用單位規定了實物基準,並冠以「國際」詞頭。如國際歐姆、國際安培作為基礎單位,國際伏特、國際庫倫、國際法拉作為導出單位,從此被普遍使用。\", generate a question that would return the answer of \"麥可·法拉第\".","input":"","output":"法拉這個單位的名稱和誰有關?","meta":{"Dataset":"xP3","Gen":"COL","IFT":true,"Lang":"ML","Multi-round Dialog":false,"Preference":false,"SFT":false,"Task":"MT","origin_path":"Alpaca-CoT\/xP3\/zh\/merged_zh.jsonl"},"text":"Given this context \"法拉是電容的國際單位,簡稱法,單位符號為F。是一種國際單位制導出單位,是以發現電磁感應現象的英國物理學家麥可·法拉第的名字而命名的。早期電磁學中的單位和單位制非常混亂。1861年,英國的布萊特和克拉克在《論電量和電阻標準的形成》一文中倡議建立一種統一的實用單位,得到了湯姆生的支持。同年,英國科學促進會成立了以湯姆生為首的六人電標準委員會,引入電阻單位歐姆、電位單位伏特。1881年,巴黎第一屆國際電學家大會增加了電流單位安培,同時引入了電量的實用單位庫侖和電容的實用單位法拉。實用單位制是電磁量中的第三套單位制,附屬於厘米-克-秒制,仍是「絕對」定義。為了更方便檢測,在1893年芝加哥第四屆國際電學家大會上對實用單位規定了實物基準,並冠以「國際」詞頭。如國際歐姆、國際安培作為基礎單位,國際伏特、國際庫倫、國際法拉作為導出單位,從此被普遍使用。\", generate a question that would return the answer of \"麥可·法拉第\". 法拉這個單位的名稱和誰有關?"} -{"instruction":"Title: 債務危機之際歐洲股市嚴重下挫\\nGiven the above title of an imaginary article, imagine the article.\\n","input":"","output":"歐盟債務危機已蔓延到意大利和西班牙\n\n\n星期五(8月5日),歐洲主要市場開盤下跌3個多百分點,而後稍有回升,動蕩劇烈。\n\n英國FTSE100指數和德國Dax指數上午均下跌了約2.5%,法國Cac40指數下跌0.7%。\n\n在倫敦股市,銀行股跌幅最大。皇家蘇格蘭銀行的股票暴跌了8%,勞埃德銀行集團的股票則下跌了3%。\n\n分析家認為「恐懼」影響了投資決定。投資人不知道股市到底何時能迴轉。\n\n歐洲波動之際,馬德里股市突然好轉,可能是由於歐洲中央銀行準備購買西班牙和意大利債券的傳聞。\n\n希臘、愛爾蘭和葡萄牙債務危機導致這些國家被救援。\n\n這種擔憂已經蔓延到西班牙和意大利。\n\n安撫股市\n\n為了安撫動蕩不安的金融市場,歐盟經濟與貨幣事務專員瑞恩(Olli Rehn)在布魯塞爾的記者會上他說,歐盟國家領導人捍衛歐元的決心不應被低估。\n\n他還說認為對歐元區經濟穩定的擔憂導致了全球金融市場的動蕩是沒有道理的。\n\n瑞恩稱,無論是意大利還是西班牙都不需要金融救助。\n\n他還說對拯救希臘的擔心沒有根據。\n\n德國,法國和西班牙領導人周五晚些時候將召開緊急電話會議,討論歐元區的最新情況。\n\n亞洲股市周五也嚴重下跌,東京日經平均指數下挫3.7%,香港股市下跌4.6%,中國、韓國、新加坡股市情況相似。\n\n星期四(8月4日),美國道瓊斯指數收盤下跌了4%,是華爾街自2008年12月以來最大的單日跌幅。\n\n市場行情\n\n\n \n 信息比實際行情晚15分鐘\n \n \n\n\n\n與内文相關的鏈接\n\n相關新聞話題","meta":{"Dataset":"xP3","Gen":"COL","IFT":true,"Lang":"ML","Multi-round Dialog":false,"Preference":false,"SFT":false,"Task":"MT","origin_path":"Alpaca-CoT\/xP3\/zh\/merged_zh.jsonl"},"text":"Title: 債務危機之際歐洲股市嚴重下挫\\nGiven the above title of an imaginary article, imagine the article.\\n 歐盟債務危機已蔓延到意大利和西班牙\n\n\n星期五(8月5日),歐洲主要市場開盤下跌3個多百分點,而後稍有回升,動蕩劇烈。\n\n英國FTSE100指數和德國Dax指數上午均下跌了約2.5%,法國Cac40指數下跌0.7%。\n\n在倫敦股市,銀行股跌幅最大。皇家蘇格蘭銀行的股票暴跌了8%,勞埃德銀行集團的股票則下跌了3%。\n\n分析家認為「恐懼」影響了投資決定。投資人不知道股市到底何時能迴轉。\n\n歐洲波動之際,馬德里股市突然好轉,可能是由於歐洲中央銀行準備購買西班牙和意大利債券的傳聞。\n\n希臘、愛爾蘭和葡萄牙債務危機導致這些國家被救援。\n\n這種擔憂已經蔓延到西班牙和意大利。\n\n安撫股市\n\n為了安撫動蕩不安的金融市場,歐盟經濟與貨幣事務專員瑞恩(Olli Rehn)在布魯塞爾的記者會上他說,歐盟國家領導人捍衛歐元的決心不應被低估。\n\n他還說認為對歐元區經濟穩定的擔憂導致了全球金融市場的動蕩是沒有道理的。\n\n瑞恩稱,無論是意大利還是西班牙都不需要金融救助。\n\n他還說對拯救希臘的擔心沒有根據。\n\n德國,法國和西班牙領導人周五晚些時候將召開緊急電話會議,討論歐元區的最新情況。\n\n亞洲股市周五也嚴重下跌,東京日經平均指數下挫3.7%,香港股市下跌4.6%,中國、韓國、新加坡股市情況相似。\n\n星期四(8月4日),美國道瓊斯指數收盤下跌了4%,是華爾街自2008年12月以來最大的單日跌幅。\n\n市場行情\n\n\n \n 信息比實際行情晚15分鐘\n \n \n\n\n\n與内文相關的鏈接\n\n相關新聞話題"} -{"instruction":"Title: “丹麦辛德勒”:日军烧杀奸淫 丹麦人辛德贝格英勇救人\\nGiven the above title of an imaginary article, imagine the article.\\n","input":"","output":"贝恩哈尔·辛德贝格(Bernhard Arp Sindberg)挥舞丹麦国旗,把日军挡在避难所外\n\n1937年,南京沦陷。贝恩哈尔·辛德贝格(Bernhard Arp Sindberg)和友人一起设法收容庇护了约2万名中国人。\n\n2019年8月31日,中国媒体报道《贝恩哈尔·辛德贝格:南京的\"丹麦英雄”》在侵华日军南京大屠杀遇难同胞纪念馆开展。\n\n同一天,丹麦女王玛格丽特二世在奥胡斯为一尊3米高的辛德贝格铜像剪彩。那是辛德贝格出生的城市。铜像是南京送给奥胡斯的礼物。\n\n奥胡斯市档案馆馆长索伦·克里斯滕森对辛德贝格的评语:一个在贫困中默默无闻地死去的人,实际上可能是我们最了不起的英雄之一。\n\n哥本哈根大学跨文化与宗教研究系研究员彼得·哈姆森(Peter Harmsen,中文名何铭生)去年接受中国媒体采访时说,奥胡斯不久将为辛德贝格竖纪念碑。\n\n辛德贝格被称为丹麦的辛德勒。后者从纳粹手中救了无数犹太人的命,事迹被好莱坞拍成电影《辛德勒的名单》。\n\n1937年冬~1938年春,辛德贝格与德国人卡尔·京特等人一起在南京远郊的江南水泥厂收容了1.5万至2万名难民,建了难民诊疗所(辛德贝格小医院),还用图文记录了日军的暴行。丹麦学者估计获救人数为6千到1万人。\n\nBBC记者劳伦斯·彼得(Laurence Peter)梳理史料,回顾了辛德贝格当年的大智大勇。\n\n辛德贝格在南京。他当时很清楚自己做的事有多危险\n\n南京沦陷\n\n日军在南京城里烧杀奸淫长达6周,据估计30万人死于南京大屠杀,其中包括许多妇女儿童,被强奸的妇女估计约2万人。\n\n日军暴行不仅有中国目击者、幸存者的记录,像辛德贝格那样当时在南京的西方人也保留了大量图文记录。\n\n迄今为止日本仍有政客否认发生过大屠杀,否认中方所说的死亡人数。这是中日关系的一个紧张源。\n\n南京被日军攻陷时,辛德贝格26岁,在丹麦公司建的江南水泥厂受雇不久,工作是门卫。他有一个德国人同事,卡尔·金特(Karl Günther)。\n\n辛德贝格和金特设法搭了一个避难所和一个诊所,收留了大量中国难民。\n\n攻占南京后,日军屠杀了无数战俘和平民,包括妇女儿童\n\n辛德贝格在水泥厂楼顶用颜料画了巨大的丹麦国旗,以免遭日军轰炸。\n\n他和金特还在水泥厂周边插上丹麦国旗和德国纳粹旗。\n\n《奥胡斯教区时报》1938年3月6日发表《最大的丹麦国旗飘扬在中国南京》报道,其中引用了辛德贝格的一段话:\n\n“我在厂里升起了一面在中国最大的丹麦国旗。我还让人在厂房屋顶上用油漆绘出一面约1350平方米的丹麦国旗,从空中就能清楚地看到。我想这一定是有史以来最大的一面丹麦国旗。”\n\n当时,日本跟纳粹德国和丹麦属于友好关系,因此日军对这个地方不敢造次。\n\n研究辛德贝格的丹麦学者何铭生(Peter Harmsen)说,战争爆发前,辛德贝格真的就是个不能再普通的无名之辈,没有任何特别之处。\n\n“他身高1.72米,就是1930年代丹麦青年男子的平均身高。他在学校成绩一般。\n\n“但是,...","meta":{"Dataset":"xP3","Gen":"COL","IFT":true,"Lang":"ML","Multi-round Dialog":false,"Preference":false,"SFT":false,"Task":"MT","origin_path":"Alpaca-CoT\/xP3\/zh\/merged_zh.jsonl"},"text":"Title: “丹麦辛德勒”:日军烧杀奸淫 丹麦人辛德贝格英勇救人\\nGiven the above title of an imaginary article, imagine the article.\\n 贝恩哈尔·辛德贝格(Bernhard Arp Sindberg)挥舞丹麦国旗,把日军挡在避难所外\n\n1937年,南京沦陷。贝恩哈尔·辛德贝格(Bernhard Arp Sindberg)和友人一起设法收容庇护了约2万名中国人。\n\n2019年8月31日,中国媒体报道《贝恩哈尔·辛德贝格:南京的\"丹麦英雄”》在侵华日军南京大屠杀遇难同胞纪念馆开展。\n\n同一天,丹麦女王玛格丽特二世在奥胡斯为一尊3米高的辛德贝格铜像剪彩。那是辛德贝格出生的城市。铜像是南京送给奥胡斯的礼物。\n\n奥胡斯市档案馆馆长索伦·克里斯滕森对辛德贝格的评语:一个在贫困中默默无闻地死去的人,实际上可能是我们最了不起的英雄之一。\n\n哥本哈根大学跨文化与宗教研究系研究员彼得·哈姆森(Peter Harmsen,中文名何铭生)去年接受中国媒体采访时说,奥胡斯不久将为辛德贝格竖纪念碑。\n\n辛德贝格被称为丹麦的辛德勒。后者从纳粹手中救了无数犹太人的命,事迹被好莱坞拍成电影《辛德勒的名单》。\n\n1937年冬~1938年春,辛德贝格与德国人卡尔·京特等人一起在南京远郊的江南水泥厂收容了1.5万至2万名难民,建了难民诊疗所(辛德贝格小医院),还用图文记录了日军的暴行。丹麦学者估计获救人数为6千到1万人。\n\nBBC记者劳伦斯·彼得(Laurence Peter)梳理史料,回顾了辛德贝格当年的大智大勇。\n\n辛德贝格在南京。他当时很清楚自己做的事有多危险\n\n南京沦陷\n\n日军在南京城里烧杀奸淫长达6周,据估计30万人死于南京大屠杀,其中包括许多妇女儿童,被强奸的妇女估计约2万人。\n\n日军暴行不仅有中国目击者、幸存者的记录,像辛德贝格那样当时在南京的西方人也保留了大量图文记录。\n\n迄今为止日本仍有政客否认发生过大屠杀,否认中方所说的死亡人数。这是中日关系的一个紧张源。\n\n南京被日军攻陷时,辛德贝格26岁,在丹麦公司建的江南水泥厂受雇不久,工作是门卫。他有一个德国人同事,卡尔·金特(Karl Günther)。\n\n辛德贝格和金特设法搭了一个避难所和一个诊所,收留了大量中国难民。\n\n攻占南京后,日军屠杀了无数战俘和平民,包括妇女儿童\n\n辛德贝格在水泥厂楼顶用颜料画了巨大的丹麦国旗,以免遭日军轰炸。\n\n他和金特还在水泥厂周边插上丹麦国旗和德国纳粹旗。\n\n《奥胡斯教区时报》1938年3月6日发表《最大的丹麦国旗飘扬在中国南京》报道,其中引用了辛德贝格的一段话:\n\n“我在厂里升起了一面在中国最大的丹麦国旗。我还让人在厂房屋顶上用油漆绘出一面约1350平方米的丹麦国旗,从空中就能清楚地看到。我想这一定是有史以来最大的一面丹麦国旗。”\n\n当时,日本跟纳粹德国和丹麦属于友好关系,因此日军对这个地方不敢造次。\n\n研究辛德贝格的丹麦学者何铭生(Peter Harmsen)说,战争爆发前,辛德贝格真的就是个不能再普通的无名之辈,没有任何特别之处。\n\n“他身高1.72米,就是1930年代丹麦青年男子的平均身高。他在学校成绩一般。\n\n“但是,..."} -{"instruction":"Content: 艾杰西(Jesse Appell)和周托尼(Tony Chou)聊了聊新冠期间的热议话题,以及在中美关系紧张之际,如何用幽默沟通两种文化。\n\n制作:冯兆音、余心妍\n\n动画:Davies Surya、Arvin Supriyadi\n\n\\nThe previous content can be summarized as follows:","input":"","output":"一个用中文表演的美国脱口秀演员,以及一个用英文表演的中国脱口秀演员,疫情期间在网上聚了聚。","meta":{"Dataset":"xP3","Gen":"COL","IFT":true,"Lang":"ML","Multi-round Dialog":false,"Preference":false,"SFT":false,"Task":"MT","origin_path":"Alpaca-CoT\/xP3\/zh\/merged_zh.jsonl"},"text":"Content: 艾杰西(Jesse Appell)和周托尼(Tony Chou)聊了聊新冠期间的热议话题,以及在中美关系紧张之际,如何用幽默沟通两种文化。\n\n制作:冯兆音、余心妍\n\n动画:Davies Surya、Arvin Supriyadi\n\n\\nThe previous content can be summarized as follows: 一个用中文表演的美国脱口秀演员,以及一个用英文表演的中国脱口秀演员,疫情期间在网上聚了聚。"} -{"instruction":"與半個月前溫格宣佈將在賽季末離任時相比,在倫敦酋長球場(Emirates Stadium)的這個周日(5月6日),球迷的心情或許已經不那麼複雜。法國人以一場勝利完成他作為阿森納俱樂部主教練的主場告別,就像7876天前他上任的時候一樣。\n\n從1996年執教球隊第一場比賽在艾伍德公園球場2-0擊敗布萊克本以來,溫格不僅給這支球隊帶來了冠軍獎杯和全新的格調,而且在一定程度上改變了英國足球。\n\n周日,溫格率領的球隊以5-0大勝本賽季表現出色的伯恩利。他亦以826場英超聯賽當中的第475場勝利,為一個時代劃上句號。\n\n假如你是在最近五年才看英超,你不會理解溫格為什麼會在最近幾個星期的不同場合受到如此高規格的致意。今年對於阿森納來說,不可能是一個令人滿意的賽季——就像過去未能染指英超錦標的14個賽季一樣,它充滿了各種怨氣,時不時還出現公開的對抗和指責。\n\n在4月20日宣佈離任的決定後,執教「兵工廠」22年的溫格曾指望以一個歐羅巴聯盟杯(Europa League,另譯「歐霸杯」)冠軍作為完美謝幕,但是一星期後作客負於馬德里競技,令他們止步半決賽,加上英超前四名爭奪已無望,溫格在阿森納的最後一個賽季再度四大皆空。\n\n然而,溫格在過去22年給一支倫敦足球隊甚至一個國家的職業聯賽所帶來的貢獻,足以令最戰績卓著(比如弗格森)和最唯我獨尊(比如穆里尼奧)的同行向他致以崇高的敬意。\n\n於是在周日,阿森納球迷在主場留給法國人的最後回憶是一致的掌聲,而溫格則留給了他們一場酣暢淋灕的大勝。這是一個不完美卻恰如其分的結局。\n\n足球變革家不再\n\n68歲的法國人在22年當中早已成為阿森納的代名詞。他率領球隊奪得三次英超冠軍、創紀錄的七次足總杯冠軍和六次慈善盾(後更名為「社區盾」)冠軍,並在2006年見證球隊從海布裏球場轉移到英超第一票價的酋長球場。\n\n在技戰術指揮、青訓梯隊培養以及現代足球俱樂部經營等全方位領域,他是英國足球貢獻最大的人物之一。\n\n2004年,阿森納成為第一支全賽季聯賽不敗的英超球隊\n\n1996年,那個從日本J聯賽球隊名古屋八鯨隊招來的法國人在英國幾乎沒有人認識,球迷和球評家都認為阿森納在作一場巨大的賭博。但是很快,人們就明白,他們正在見證一個將永遠改變英格蘭足球面貌的外國教頭。\n\n從技戰術到球員飲食再到職業足球文化,溫格很快就開始從每一個細節當中改革一支足球隊。他一上任就禁止球員再在賽前吃巧克力,結束了眾所周知的球員飲酒習慣,並全面引入科學手段進行訓練。\n\n在他的第一個完整執教的賽季,阿森納就奪得了聯賽和足總杯雙料冠軍。他也成為第一個在英超奪冠的外籍教練。\n\n在他之前,只有阿根廷人阿迪萊斯(Osvaldo Ardiles)和荷蘭人古力特(Ruud Gullit)兩個外國人在英超執教過;在溫格進入英超之後,1997年至今共有54名非英國人執教過至少一場英超比賽。\n\n在這一點上,他被認為是外國教練在英超的開拓者。\n\n在第一個賽季執教的30場聯賽中,溫格的勝率是46.7%——12個月後這個數字就變成了60.5%,英超奪冠奠定了他改革家和戰術大師的地位。\n\n他繼承了前任主帥喬治·格拉漢姆(George Graham)時代硬朗的後防線和中場屏障,同時以近乎點石成金的個人指導,先後將博格坎普(Dennis Bergkamp)、亨利(Thierry Henry)、阿內爾卡(Nicolas Anelka)、法布雷加斯(Cesc Fabregas)以及範佩西(Robin Van Persie)等球員培養成世界級球星。\n\n他在培養球員方面的最突出的例子,是以50萬英鎊購入的阿內爾卡,兩年後以2250萬英鎊出售給皇家馬德里。\n\n在2003-04賽季,阿森納以全賽季38不敗的戰績奪得英超冠軍,溫格帶隊的勝率達到68.4%。\n\n現在已是球評家的加裏·內維爾(Gary Neville)當時在溫格的主要對手、曼聯主帥弗格森爵士(Sir Alex Ferguson)麾下效力。內維爾向BBC體育部形容,當時溫格手下是一支「恐怖」的球隊,將有個性和才華的球員培養得更具風格,「忽然間,他們用的球員集力量、速度和細膩技術於一身。」\n\n維埃拉(左)是溫格擔任阿森納教練後培養的球星之一\n\n在中國,溫格被一代球迷稱為「教授」。在世紀之初,一支將足球升華為藝術的職業俱樂部球隊在經濟進一步開放、越發全面接觸歐美體育和娛樂文化的中國培養了一代球迷。溫格帶領的這支外號「兵工廠」的球隊不僅打漂亮的現代進攻足球,並且不以高價收購球星為手段,戰績同樣所向披靡。\n\n在中國的球迷中間,阿森納一度是以「理想主義」對抗資本世界的代名詞。\n\n後來,這種「信仰」隨著俄羅斯富商阿布拉莫維奇入主切爾西以及阿布扎比財團入主曼城而逐漸褪色。2004年,以執行力超強的防守足球打天下的穆里尼奧(Jose... \\n\\nGive me a good title for the article above.","input":"","output":"溫格告別阿森納:再見,曾經的足球改革家","meta":{"Dataset":"xP3","Gen":"COL","IFT":true,"Lang":"ML","Multi-round Dialog":false,"Preference":false,"SFT":false,"Task":"MT","origin_path":"Alpaca-CoT\/xP3\/zh\/merged_zh.jsonl"},"text":"與半個月前溫格宣佈將在賽季末離任時相比,在倫敦酋長球場(Emirates Stadium)的這個周日(5月6日),球迷的心情或許已經不那麼複雜。法國人以一場勝利完成他作為阿森納俱樂部主教練的主場告別,就像7876天前他上任的時候一樣。\n\n從1996年執教球隊第一場比賽在艾伍德公園球場2-0擊敗布萊克本以來,溫格不僅給這支球隊帶來了冠軍獎杯和全新的格調,而且在一定程度上改變了英國足球。\n\n周日,溫格率領的球隊以5-0大勝本賽季表現出色的伯恩利。他亦以826場英超聯賽當中的第475場勝利,為一個時代劃上句號。\n\n假如你是在最近五年才看英超,你不會理解溫格為什麼會在最近幾個星期的不同場合受到如此高規格的致意。今年對於阿森納來說,不可能是一個令人滿意的賽季——就像過去未能染指英超錦標的14個賽季一樣,它充滿了各種怨氣,時不時還出現公開的對抗和指責。\n\n在4月20日宣佈離任的決定後,執教「兵工廠」22年的溫格曾指望以一個歐羅巴聯盟杯(Europa League,另譯「歐霸杯」)冠軍作為完美謝幕,但是一星期後作客負於馬德里競技,令他們止步半決賽,加上英超前四名爭奪已無望,溫格在阿森納的最後一個賽季再度四大皆空。\n\n然而,溫格在過去22年給一支倫敦足球隊甚至一個國家的職業聯賽所帶來的貢獻,足以令最戰績卓著(比如弗格森)和最唯我獨尊(比如穆里尼奧)的同行向他致以崇高的敬意。\n\n於是在周日,阿森納球迷在主場留給法國人的最後回憶是一致的掌聲,而溫格則留給了他們一場酣暢淋灕的大勝。這是一個不完美卻恰如其分的結局。\n\n足球變革家不再\n\n68歲的法國人在22年當中早已成為阿森納的代名詞。他率領球隊奪得三次英超冠軍、創紀錄的七次足總杯冠軍和六次慈善盾(後更名為「社區盾」)冠軍,並在2006年見證球隊從海布裏球場轉移到英超第一票價的酋長球場。\n\n在技戰術指揮、青訓梯隊培養以及現代足球俱樂部經營等全方位領域,他是英國足球貢獻最大的人物之一。\n\n2004年,阿森納成為第一支全賽季聯賽不敗的英超球隊\n\n1996年,那個從日本J聯賽球隊名古屋八鯨隊招來的法國人在英國幾乎沒有人認識,球迷和球評家都認為阿森納在作一場巨大的賭博。但是很快,人們就明白,他們正在見證一個將永遠改變英格蘭足球面貌的外國教頭。\n\n從技戰術到球員飲食再到職業足球文化,溫格很快就開始從每一個細節當中改革一支足球隊。他一上任就禁止球員再在賽前吃巧克力,結束了眾所周知的球員飲酒習慣,並全面引入科學手段進行訓練。\n\n在他的第一個完整執教的賽季,阿森納就奪得了聯賽和足總杯雙料冠軍。他也成為第一個在英超奪冠的外籍教練。\n\n在他之前,只有阿根廷人阿迪萊斯(Osvaldo Ardiles)和荷蘭人古力特(Ruud Gullit)兩個外國人在英超執教過;在溫格進入英超之後,1997年至今共有54名非英國人執教過至少一場英超比賽。\n\n在這一點上,他被認為是外國教練在英超的開拓者。\n\n在第一個賽季執教的30場聯賽中,溫格的勝率是46.7%——12個月後這個數字就變成了60.5%,英超奪冠奠定了他改革家和戰術大師的地位。\n\n他繼承了前任主帥喬治·格拉漢姆(George Graham)時代硬朗的後防線和中場屏障,同時以近乎點石成金的個人指導,先後將博格坎普(Dennis Bergkamp)、亨利(Thierry Henry)、阿內爾卡(Nicolas Anelka)、法布雷加斯(Cesc Fabregas)以及範佩西(Robin Van Persie)等球員培養成世界級球星。\n\n他在培養球員方面的最突出的例子,是以50萬英鎊購入的阿內爾卡,兩年後以2250萬英鎊出售給皇家馬德里。\n\n在2003-04賽季,阿森納以全賽季38不敗的戰績奪得英超冠軍,溫格帶隊的勝率達到68.4%。\n\n現在已是球評家的加裏·內維爾(Gary Neville)當時在溫格的主要對手、曼聯主帥弗格森爵士(Sir Alex Ferguson)麾下效力。內維爾向BBC體育部形容,當時溫格手下是一支「恐怖」的球隊,將有個性和才華的球員培養得更具風格,「忽然間,他們用的球員集力量、速度和細膩技術於一身。」\n\n維埃拉(左)是溫格擔任阿森納教練後培養的球星之一\n\n在中國,溫格被一代球迷稱為「教授」。在世紀之初,一支將足球升華為藝術的職業俱樂部球隊在經濟進一步開放、越發全面接觸歐美體育和娛樂文化的中國培養了一代球迷。溫格帶領的這支外號「兵工廠」的球隊不僅打漂亮的現代進攻足球,並且不以高價收購球星為手段,戰績同樣所向披靡。\n\n在中國的球迷中間,阿森納一度是以「理想主義」對抗資本世界的代名詞。\n\n後來,這種「信仰」隨著俄羅斯富商阿布拉莫維奇入主切爾西以及阿布扎比財團入主曼城而逐漸褪色。2004年,以執行力超強的防守足球打天下的穆里尼奧(Jose... \\n\\nGive me a good title for the article above. 溫格告別阿森納:再見,曾經的足球改革家"} -{"instruction":"Content: 哈利王子和戴安娜王妃度假的照片,是其中一张从未曝光的照片\n\n今年是戴安娜王妃逝世20周年,独立电视(ITV)制作纪录片纪念她。王子们在片中说,戴安娜王妃了解“在皇宫墙外的真实生活”,亦鼓励他们要“顽皮”。\n\n王子们表示,妈妈发生意外前,他们曾短促通电,是他们的一生遗憾。\n\n纪录片会播出一些王子们与戴安娜王妃从未曝光的照片。\n\n今年是戴安娜王妃逝世20周年\n\n纪录片中,哈里王子与威廉王子一边翻看戴安娜王妃的私人相簿,一边倾谈有关她的童年回忆。\n\n戴安娜王妃在1997年8月31日于巴黎发生交通意外离世。当时,威廉王子只有15岁,哈里王子只有12岁。\n\n威廉王子说,参与纪录片起初感觉“挺令人畏惧”,不过“亦是一个治疗过程”。\n\n他又说,他和弟弟希望现时他们的工作,能够延续戴安娜王妃的影响。\n\n戴安娜王妃在这张照片中,怀有哈利王子。威廉王子对弟弟打趣说:”信不信由你,我跟你都在这张照片里。”\n\n哈里王子指母亲拥有幽默感,他并说:“我们的妈妈是彻头彻尾的小孩。”\n\n“当人人对我说,她这么有趣,给我们一个例子时,我只能在脑海中听到她的笑声。”\n\n哈里王子补充:“对我来说,她其中一个座右铭是,你可以顽皮,但不要给人抓到。”\n\n“她是最顽皮的家长。她会来及看我们踢足球,然后把糖果偷放在我们袜子里。”\n\n威廉王子说,戴妃不拘礼节,并享受笑声及乐趣。\n\n他说,戴安娜王妃爱说笑,并喜欢最粗鲁的卡片。\n\n“我在学校时会收到妈妈给我的卡片。她经常找到一些很令人尴尬、非常搞笑的卡片,里面她会写一些窝心的内容。”\n\n“不过我不敢打开卡片,怕老师或其他人看到。”\n\n威廉王子说,其中一个“很有趣”的回忆是,当他从学校回家时,看到妈妈邀请超模辛迪‧克劳馥(Cindy Crawford)、克莉丝蒂‧杜灵顿(Christy Turlington)及娜奥米·坎贝尔(Naomi Campbell)在肯辛顿宫作客。\n\n他在纪录片中说:“当时我只有12、13岁,墙壁都贴上她们的照片。”\n\n“我脸红了,亦不知道该说些甚么。我当时挺笨拙的,在我上去的时候,从楼梯跌倒。我完全叹为观止。”\n\n“戴安娜奶奶”\n\n威廉王子说,他们与母亲的最后对话,在他心中仍然沉重。他们与她最后通话的时候,他们正在英女王在苏格兰的夏宫巴尔莫勒尔城堡,与堂兄弟姊妹玩得愉快。\n\n“哈里和我赶着向她说再见,‘迟些见’…… 假如当时我知道接下来会发生甚么事,我不会这么厌倦。”\n\n威廉王子说,他记得母亲当时说甚么,但并没有透露内容。\n\n哈里王子说:“她在巴黎打过来,我不太记得我说了甚么……我大概有生以来都会一直后悔,我们的通话有多短。”\n\n戴安娜王妃的私人相簿中的照片\n\n哈里王子说他一直以来只有为妈妈哭过两次──其中一次是在1997年她的丧礼上。\n\n“现时还有很多悲痛需要释放出来。”\n\n除了威廉及哈利王子外,剑桥公爵夫人凯特、小王子乔治、小公主夏洛特亦有出席六月举行悼念戴妃的仪式。威廉王子说,他在孩子面前,“经常提及戴安娜奶奶”,以保存对母亲的回忆。\n\n“她会是一个很可爱的祖母,她绝对会喜欢当奶奶,她会十分爱小孩。”\n\n威廉王子打趣道:“她会是一个带来恶梦的祖母...... 她大可能在洗澡时间到访,恶搞一场…… 到处都是肥皂泡、水泻到每一处,接着她就会离开。”\n\n哈里王子对ITV说:“对我和威廉来说,她是最棒的母亲。”\n\n“这一直令我难受,而未来仍然会是如此。威廉和我,没有一天不希望她还在这儿。我们亦猜想,假如她还在的话,她到底现在会是一个如何的妈妈、她会在公众擔任如何的角色、她为世界会带来甚么不一样。”\n\n威廉王子与哈里王子亦同意参与未来一出BBC有关戴妃的纪录片。\n\n他们在肯辛顿宫接受ITV访问。他们将会在肯辛顿宫的公众花园,揭幕一尊纪念戴妃的雕像。\n\n威廉王子说:“我们不会再这样做──我们将不会再次如此公开地谈及她,因为我们希望这个节目从亲密的家庭友人、最熟悉她的人、那些希望守护她的回亿的人,谈及她的另一面。我们想提醒他人,到底她是一个如何的人。”\n\n\\nThe previous content can be summarized as follows:","input":"","output":"英国剑桥公爵威廉王子与弟弟哈里王子忆述童年时光,指母亲戴安娜王妃养育他们的方式充满乐趣,又说她是“彻头彻尾的小孩”。","meta":{"Dataset":"xP3","Gen":"COL","IFT":true,"Lang":"ML","Multi-round Dialog":false,"Preference":false,"SFT":false,"Task":"MT","origin_path":"Alpaca-CoT\/xP3\/zh\/merged_zh.jsonl"},"text":"Content: 哈利王子和戴安娜王妃度假的照片,是其中一张从未曝光的照片\n\n今年是戴安娜王妃逝世20周年,独立电视(ITV)制作纪录片纪念她。王子们在片中说,戴安娜王妃了解“在皇宫墙外的真实生活”,亦鼓励他们要“顽皮”。\n\n王子们表示,妈妈发生意外前,他们曾短促通电,是他们的一生遗憾。\n\n纪录片会播出一些王子们与戴安娜王妃从未曝光的照片。\n\n今年是戴安娜王妃逝世20周年\n\n纪录片中,哈里王子与威廉王子一边翻看戴安娜王妃的私人相簿,一边倾谈有关她的童年回忆。\n\n戴安娜王妃在1997年8月31日于巴黎发生交通意外离世。当时,威廉王子只有15岁,哈里王子只有12岁。\n\n威廉王子说,参与纪录片起初感觉“挺令人畏惧”,不过“亦是一个治疗过程”。\n\n他又说,他和弟弟希望现时他们的工作,能够延续戴安娜王妃的影响。\n\n戴安娜王妃在这张照片中,怀有哈利王子。威廉王子对弟弟打趣说:”信不信由你,我跟你都在这张照片里。”\n\n哈里王子指母亲拥有幽默感,他并说:“我们的妈妈是彻头彻尾的小孩。”\n\n“当人人对我说,她这么有趣,给我们一个例子时,我只能在脑海中听到她的笑声。”\n\n哈里王子补充:“对我来说,她其中一个座右铭是,你可以顽皮,但不要给人抓到。”\n\n“她是最顽皮的家长。她会来及看我们踢足球,然后把糖果偷放在我们袜子里。”\n\n威廉王子说,戴妃不拘礼节,并享受笑声及乐趣。\n\n他说,戴安娜王妃爱说笑,并喜欢最粗鲁的卡片。\n\n“我在学校时会收到妈妈给我的卡片。她经常找到一些很令人尴尬、非常搞笑的卡片,里面她会写一些窝心的内容。”\n\n“不过我不敢打开卡片,怕老师或其他人看到。”\n\n威廉王子说,其中一个“很有趣”的回忆是,当他从学校回家时,看到妈妈邀请超模辛迪‧克劳馥(Cindy Crawford)、克莉丝蒂‧杜灵顿(Christy Turlington)及娜奥米·坎贝尔(Naomi Campbell)在肯辛顿宫作客。\n\n他在纪录片中说:“当时我只有12、13岁,墙壁都贴上她们的照片。”\n\n“我脸红了,亦不知道该说些甚么。我当时挺笨拙的,在我上去的时候,从楼梯跌倒。我完全叹为观止。”\n\n“戴安娜奶奶”\n\n威廉王子说,他们与母亲的最后对话,在他心中仍然沉重。他们与她最后通话的时候,他们正在英女王在苏格兰的夏宫巴尔莫勒尔城堡,与堂兄弟姊妹玩得愉快。\n\n“哈里和我赶着向她说再见,‘迟些见’…… 假如当时我知道接下来会发生甚么事,我不会这么厌倦。”\n\n威廉王子说,他记得母亲当时说甚么,但并没有透露内容。\n\n哈里王子说:“她在巴黎打过来,我不太记得我说了甚么……我大概有生以来都会一直后悔,我们的通话有多短。”\n\n戴安娜王妃的私人相簿中的照片\n\n哈里王子说他一直以来只有为妈妈哭过两次──其中一次是在1997年她的丧礼上。\n\n“现时还有很多悲痛需要释放出来。”\n\n除了威廉及哈利王子外,剑桥公爵夫人凯特、小王子乔治、小公主夏洛特亦有出席六月举行悼念戴妃的仪式。威廉王子说,他在孩子面前,“经常提及戴安娜奶奶”,以保存对母亲的回忆。\n\n“她会是一个很可爱的祖母,她绝对会喜欢当奶奶,她会十分爱小孩。”\n\n威廉王子打趣道:“她会是一个带来恶梦的祖母...... 她大可能在洗澡时间到访,恶搞一场…… 到处都是肥皂泡、水泻到每一处,接着她就会离开。”\n\n哈里王子对ITV说:“对我和威廉来说,她是最棒的母亲。”\n\n“这一直令我难受,而未来仍然会是如此。威廉和我,没有一天不希望她还在这儿。我们亦猜想,假如她还在的话,她到底现在会是一个如何的妈妈、她会在公众擔任如何的角色、她为世界会带来甚么不一样。”\n\n威廉王子与哈里王子亦同意参与未来一出BBC有关戴妃的纪录片。\n\n他们在肯辛顿宫接受ITV访问。他们将会在肯辛顿宫的公众花园,揭幕一尊纪念戴妃的雕像。\n\n威廉王子说:“我们不会再这样做──我们将不会再次如此公开地谈及她,因为我们希望这个节目从亲密的家庭友人、最熟悉她的人、那些希望守护她的回亿的人,谈及她的另一面。我们想提醒他人,到底她是一个如何的人。”\n\n\\nThe previous content can be summarized as follows: 英国剑桥公爵威廉王子与弟弟哈里王子忆述童年时光,指母亲戴安娜王妃养育他们的方式充满乐趣,又说她是“彻头彻尾的小孩”。"} -{"instruction":"示威者戴起聖誕帽、舉起黃色雨傘,在銅鑼灣遊行。\n\n數以百計群眾分別在旺角西洋菜南街和銅鑼灣軒尼詩道聚集、流竄,一些人聲稱要進行聖誕報佳音活動。警方舉旗警告群眾在參與非法集結,並逮捕12名示威者。\n\n群眾直到星期四(12月25日)凌晨才陸續解散。中共《人民日報海外版》刊文批評,「『佔中』剩下的部分『港鬧』,還是鐵了心要在這個日子裏給大多數港人添堵」。\n\n香港行政長官梁振英星期四出發到北京述職時稱,他將向中國中央領導人交代香港政制發展情況,但強調落實普選「一定要合乎《基本法》和其他有關的法律」。\n\n梁振英在香港國際機場出發前對媒體記者說:「由現在的選舉委員會改變到一人一票的普選,是有手續的,包括甚麼呢?三分之二立法會議員的通過、行政長官的同意,以及人大常委會的批准。」\n\n「根據《基本法》的規定和人大常委會決定,我同意和人大常委會的批准,這個是不成問題的,最重要的是看我們是否可以取得三分之二或者更多立法會議員的通過,這個工作我們會繼續去做。」\n\n上百民眾在旺角西洋菜南街與亞皆老街交界聚集,警方要求他們離開。(香港電台圖片)\n\n警方逮捕了多名示威者。\n\n一些市民響應學生團體號召,舉起「我要真普選」標語遊行到金鐘政府總部。\n\n「『佔中』失敗不甘心」\n\n自旺角佔領區於11月26日被清場以來,該區多次出現流竄式示威,警方與抗議民眾\n\n曾多次發生衝突。\n\n到旺角參與星期三平安夜示威的群眾據稱是響應網上號召而來。他們叫喊「我要真普選」、「梁振英下台」等口號,一些人在星期四凌晨時分衝出彌敦道,警員趕到時馬上返回人行道。\n\n銅鑼灣的示威者首先在崇光百貨公司門外原佔領區旁邊聚集,有些以緩慢步速過馬路,也有人戴起聖誕帽,唱被改編成抗議歌曲的基督教詩歌。\n\n另一方,尖沙咀海旁一帶依照慣例通宵封閉多數道路,讓市民觀賞維多利亞港兩岸的聖誕燈飾。少量示威者到天星碼頭一帶派發抗議氣球。\n\n在銅鑼灣,警方舉起警告旗稱示威者在非法集結,要求他們解散。\n\n一些示威者自稱在「報佳音」,與要求他們解散的警員理論。\n\n《人民日報海外版》點名人民力量成員「快必」譚得志(右)等鼓動流竄抗議。\n\n香港警務處星期五早上發表聲明,譴責示威者「滋擾」,其行為「罔顧他人安全,嚴重破壞公共秩序」。\n\n聲明說:「警方曾多次在現場作出勸喻及展示警告橫額,希望他們盡快離開,但他們拒絕聽從。警方在別無選擇的情況下,採取果斷行動,施放胡椒噴劑及使用警棍,以最低武力制止該等違法行為,並驅趕及拘捕有關人士。」\n\n「警方在旺角一帶共拘捕10男兩女,年齡介乎13至43歲,分別涉嫌『襲警』、『阻礙警務人員執行職務』、『在公眾地方行為不檢』、『刑事毀壞』及『未能出示身份證明文件』。行動中,有兩名警務人員受傷。」\n\n\n\n《人民日報海外版》星期四的文章稱:「之前反對派團體就不甘心『佔中』失敗,假借『鳩嗚』(購物)、『流動音樂會』、『報佳音』等名義,揚言要在金鐘、旺角和銅鑼灣三個『佔領區』重現『佔領』場面。為避免產生混亂,銅鑼灣時代廣場和尖沙咀海港城今年都取消了節日倒數活動。」\n\n文章點名批評泛民主派政團人民力量成員,電台節目主持人「快必」譚得志等在幕後鼓動這些抗議,又提及1981年發生的中環平安夜騷亂。\n\n文章稱:「有犯罪學者分析,當年的平安夜騷亂,是一些覺得自己沒有出路的青少年,以砸破中區名店櫥窗發洩不滿。今天社會不但出現類似氣氛,還受到違法爭取民主無錯的意識影響,又有人預先鼓吹,再有早前『佔中』和『鳩嗚』的『實戰』經驗,為聖誕平安夜,投下了不安的陰影。」\n\n「像澳門學乖」?\n\n香港「佔中」發生前後,親北京陣營曾多次稱政府應汲取教訓,盡快重啟《基本法》第23條所規定的國家安全立法。\n\n香港「佔中」清場後不久,澳門在20日慶祝治權移交15週年。曾任中國國務院港澳事務辦公室副主任的全國港澳研究會會長陳佐洱\n\n接受香港媒體專訪時就說,同樣有「23條立法」的規定,澳門卻走在香港前頭,先行完成國安立法。\n\n\n\n香港《蘋果日報》星期四的社論說:「北京當權者揚澳貶港當然有他們的圖謀及計算,他們大概希望香港逐步變成澳門那樣,事事順從北京的旨意,時時『聽教聽話』。可對絕大部份香港市民來說,對「一國兩制」方針政策來說,澳門模式既不可取也沒有好處,帶來的只會是停滯、倒退甚至災難。」\n\n社論續說:「從政治上看,澳門似乎風平浪靜,沒有誰高喊崔世安下台,沒有『雨傘運動』,也沒有大批市民上街爭取真普選。但實際上社會矛盾相當嚴峻,前一陣子就有過萬市民上街反對澳門政府為官員權貴提出的『替補方案』(高官離職補償法案),震動整個澳門。」\n\n「面對京官想把香港『澳門化』的企圖及壓力,面對中國要把香港『馴服』的高壓態度,我們除了在口頭上說不外,更需要從政治上、經濟上強化香港的獨特地位及優勢,防止香港淪落為另一個澳門!」\n\n中國國家主席到澳門出席特區成立15週年慶典時也有市民遊行要求實現普選。\n\n(撰稿/責編:葉靖斯)\n\n \\n\\nGive me a good title for the article above.","input":"","output":"「佔中」過後香港民眾平安夜再「購物」示威","meta":{"Dataset":"xP3","Gen":"COL","IFT":true,"Lang":"ML","Multi-round Dialog":false,"Preference":false,"SFT":false,"Task":"MT","origin_path":"Alpaca-CoT\/xP3\/zh\/merged_zh.jsonl"},"text":"示威者戴起聖誕帽、舉起黃色雨傘,在銅鑼灣遊行。\n\n數以百計群眾分別在旺角西洋菜南街和銅鑼灣軒尼詩道聚集、流竄,一些人聲稱要進行聖誕報佳音活動。警方舉旗警告群眾在參與非法集結,並逮捕12名示威者。\n\n群眾直到星期四(12月25日)凌晨才陸續解散。中共《人民日報海外版》刊文批評,「『佔中』剩下的部分『港鬧』,還是鐵了心要在這個日子裏給大多數港人添堵」。\n\n香港行政長官梁振英星期四出發到北京述職時稱,他將向中國中央領導人交代香港政制發展情況,但強調落實普選「一定要合乎《基本法》和其他有關的法律」。\n\n梁振英在香港國際機場出發前對媒體記者說:「由現在的選舉委員會改變到一人一票的普選,是有手續的,包括甚麼呢?三分之二立法會議員的通過、行政長官的同意,以及人大常委會的批准。」\n\n「根據《基本法》的規定和人大常委會決定,我同意和人大常委會的批准,這個是不成問題的,最重要的是看我們是否可以取得三分之二或者更多立法會議員的通過,這個工作我們會繼續去做。」\n\n上百民眾在旺角西洋菜南街與亞皆老街交界聚集,警方要求他們離開。(香港電台圖片)\n\n警方逮捕了多名示威者。\n\n一些市民響應學生團體號召,舉起「我要真普選」標語遊行到金鐘政府總部。\n\n「『佔中』失敗不甘心」\n\n自旺角佔領區於11月26日被清場以來,該區多次出現流竄式示威,警方與抗議民眾\n\n曾多次發生衝突。\n\n到旺角參與星期三平安夜示威的群眾據稱是響應網上號召而來。他們叫喊「我要真普選」、「梁振英下台」等口號,一些人在星期四凌晨時分衝出彌敦道,警員趕到時馬上返回人行道。\n\n銅鑼灣的示威者首先在崇光百貨公司門外原佔領區旁邊聚集,有些以緩慢步速過馬路,也有人戴起聖誕帽,唱被改編成抗議歌曲的基督教詩歌。\n\n另一方,尖沙咀海旁一帶依照慣例通宵封閉多數道路,讓市民觀賞維多利亞港兩岸的聖誕燈飾。少量示威者到天星碼頭一帶派發抗議氣球。\n\n在銅鑼灣,警方舉起警告旗稱示威者在非法集結,要求他們解散。\n\n一些示威者自稱在「報佳音」,與要求他們解散的警員理論。\n\n《人民日報海外版》點名人民力量成員「快必」譚得志(右)等鼓動流竄抗議。\n\n香港警務處星期五早上發表聲明,譴責示威者「滋擾」,其行為「罔顧他人安全,嚴重破壞公共秩序」。\n\n聲明說:「警方曾多次在現場作出勸喻及展示警告橫額,希望他們盡快離開,但他們拒絕聽從。警方在別無選擇的情況下,採取果斷行動,施放胡椒噴劑及使用警棍,以最低武力制止該等違法行為,並驅趕及拘捕有關人士。」\n\n「警方在旺角一帶共拘捕10男兩女,年齡介乎13至43歲,分別涉嫌『襲警』、『阻礙警務人員執行職務』、『在公眾地方行為不檢』、『刑事毀壞』及『未能出示身份證明文件』。行動中,有兩名警務人員受傷。」\n\n\n\n《人民日報海外版》星期四的文章稱:「之前反對派團體就不甘心『佔中』失敗,假借『鳩嗚』(購物)、『流動音樂會』、『報佳音』等名義,揚言要在金鐘、旺角和銅鑼灣三個『佔領區』重現『佔領』場面。為避免產生混亂,銅鑼灣時代廣場和尖沙咀海港城今年都取消了節日倒數活動。」\n\n文章點名批評泛民主派政團人民力量成員,電台節目主持人「快必」譚得志等在幕後鼓動這些抗議,又提及1981年發生的中環平安夜騷亂。\n\n文章稱:「有犯罪學者分析,當年的平安夜騷亂,是一些覺得自己沒有出路的青少年,以砸破中區名店櫥窗發洩不滿。今天社會不但出現類似氣氛,還受到違法爭取民主無錯的意識影響,又有人預先鼓吹,再有早前『佔中』和『鳩嗚』的『實戰』經驗,為聖誕平安夜,投下了不安的陰影。」\n\n「像澳門學乖」?\n\n香港「佔中」發生前後,親北京陣營曾多次稱政府應汲取教訓,盡快重啟《基本法》第23條所規定的國家安全立法。\n\n香港「佔中」清場後不久,澳門在20日慶祝治權移交15週年。曾任中國國務院港澳事務辦公室副主任的全國港澳研究會會長陳佐洱\n\n接受香港媒體專訪時就說,同樣有「23條立法」的規定,澳門卻走在香港前頭,先行完成國安立法。\n\n\n\n香港《蘋果日報》星期四的社論說:「北京當權者揚澳貶港當然有他們的圖謀及計算,他們大概希望香港逐步變成澳門那樣,事事順從北京的旨意,時時『聽教聽話』。可對絕大部份香港市民來說,對「一國兩制」方針政策來說,澳門模式既不可取也沒有好處,帶來的只會是停滯、倒退甚至災難。」\n\n社論續說:「從政治上看,澳門似乎風平浪靜,沒有誰高喊崔世安下台,沒有『雨傘運動』,也沒有大批市民上街爭取真普選。但實際上社會矛盾相當嚴峻,前一陣子就有過萬市民上街反對澳門政府為官員權貴提出的『替補方案』(高官離職補償法案),震動整個澳門。」\n\n「面對京官想把香港『澳門化』的企圖及壓力,面對中國要把香港『馴服』的高壓態度,我們除了在口頭上說不外,更需要從政治上、經濟上強化香港的獨特地位及優勢,防止香港淪落為另一個澳門!」\n\n中國國家主席到澳門出席特區成立15週年慶典時也有市民遊行要求實現普選。\n\n(撰稿/責編:葉靖斯)\n\n \\n\\nGive me a good title for the article above. 「佔中」過後香港民眾平安夜再「購物」示威"} -{"instruction":"Q: 斯塔福德郡是哪个国家的郡? Can you write some context to answer the question?","input":"","output":"史丹佛郡(,英文简称:,又译士达福郡及施他佛郡),英国英格兰西米德兰兹的郡。皮克区(Peak district)国家公园横跨郡的东北部。以人口计算,特伦特河畔斯托克是第1大城市,利奇菲尔德是第2大城市;坎诺克是第1大镇,塔姆沃思是第2大镇,纽卡素安德莱姆是第3大镇,斯塔福德是第4大镇(亦是郡治),特伦特河畔伯顿是第5大镇;纽卡素安德莱姆是第1大自治市镇(Borough)。史丹佛郡是34个非都市郡之一,实际管辖8个非都市区,占地2,620平方公里(第18)有822,800人口(第8);如看待成48个名誉郡之一,它名义上包含多1个单一管理区─特伦特河畔斯托克,占地增至2,713平方公里(第18),人口增至1,062,500(第14)。斯塔福德郡是非都市郡,实际管辖8个非都市区:塔姆沃思(Tamworth)、利奇菲尔德(Lichfield)、坎诺克蔡斯(Cannock Chase)、斯塔福德郡南(South Staffordshire)、斯塔福德、纽卡素安德莱姆(Newcastle-under-Lyme)、斯塔福德郡高沼(Staffordshire Moorlands)、斯塔福德郡东(East Staffordshire);如看待成名誉郡,它名义上包含多1个单一管理区:特伦特河畔斯托克(Stoke-on-Trent)。以下经济数据以英镑计算:下图显示英格兰48个名誉郡的分布情况。斯塔福德郡东北、东与打比郡相邻,东南(上小半部)与莱斯特郡相邻,东南(下大半部)与沃里克郡相邻,南与西米德兰兹郡相邻,西南与伍斯特郡相邻,西与什罗普郡相邻,西北与柴郡相邻。天然森林(National Forest)的西端位于斯塔福德郡。优秀自然美景范围(Area of Outstanding Natural Beauty)之一的坎诺克蔡斯郊野公园覆盖郡的南部。","meta":{"Dataset":"xP3","Gen":"COL","IFT":true,"Lang":"ML","Multi-round Dialog":false,"Preference":false,"SFT":false,"Task":"MT","origin_path":"Alpaca-CoT\/xP3\/zh\/merged_zh.jsonl"},"text":"Q: 斯塔福德郡是哪个国家的郡? Can you write some context to answer the question? 史丹佛郡(,英文简称:,又译士达福郡及施他佛郡),英国英格兰西米德兰兹的郡。皮克区(Peak district)国家公园横跨郡的东北部。以人口计算,特伦特河畔斯托克是第1大城市,利奇菲尔德是第2大城市;坎诺克是第1大镇,塔姆沃思是第2大镇,纽卡素安德莱姆是第3大镇,斯塔福德是第4大镇(亦是郡治),特伦特河畔伯顿是第5大镇;纽卡素安德莱姆是第1大自治市镇(Borough)。史丹佛郡是34个非都市郡之一,实际管辖8个非都市区,占地2,620平方公里(第18)有822,800人口(第8);如看待成48个名誉郡之一,它名义上包含多1个单一管理区─特伦特河畔斯托克,占地增至2,713平方公里(第18),人口增至1,062,500(第14)。斯塔福德郡是非都市郡,实际管辖8个非都市区:塔姆沃思(Tamworth)、利奇菲尔德(Lichfield)、坎诺克蔡斯(Cannock Chase)、斯塔福德郡南(South Staffordshire)、斯塔福德、纽卡素安德莱姆(Newcastle-under-Lyme)、斯塔福德郡高沼(Staffordshire Moorlands)、斯塔福德郡东(East Staffordshire);如看待成名誉郡,它名义上包含多1个单一管理区:特伦特河畔斯托克(Stoke-on-Trent)。以下经济数据以英镑计算:下图显示英格兰48个名誉郡的分布情况。斯塔福德郡东北、东与打比郡相邻,东南(上小半部)与莱斯特郡相邻,东南(下大半部)与沃里克郡相邻,南与西米德兰兹郡相邻,西南与伍斯特郡相邻,西与什罗普郡相邻,西北与柴郡相邻。天然森林(National Forest)的西端位于斯塔福德郡。优秀自然美景范围(Area of Outstanding Natural Beauty)之一的坎诺克蔡斯郊野公园覆盖郡的南部。"} -{"instruction":"大家都说小李比我大一岁,但其实他只比我大一个月,因为他的生日在十二月,我的生日是第二年的一月。\n\nGiven the dialogue \/ passage above, what is the answer for the question \"他和小李差两岁。\"\nAnswer choices: 正确, or 错误?","input":"","output":"错误","meta":{"Dataset":"xP3","Gen":"COL","IFT":true,"Lang":"ML","Multi-round Dialog":false,"Preference":false,"SFT":false,"Task":"MT","origin_path":"Alpaca-CoT\/xP3\/zh\/merged_zh.jsonl"},"text":"大家都说小李比我大一岁,但其实他只比我大一个月,因为他的生日在十二月,我的生日是第二年的一月。\n\nGiven the dialogue \/ passage above, what is the answer for the question \"他和小李差两岁。\"\nAnswer choices: 正确, or 错误? 错误"} -{"instruction":"Content: 2017年12月19日,广东医生谭秦东发布题为《中国神酒“鸿毛药酒”,来自天堂的毒药》的文章,称“中国神酒,只要每天一瓶,离天堂更近一点。”之后谭秦东遭到鸿茅药业起诉,并被内蒙古警方跨省拘捕。\n\n鸿茅药酒是一个产自内蒙古自治区凉城县鸿茅镇的中药药酒,是一种甲类非处方药。鸿茅药酒是中国中央电视台2018年第一季度大陆地区电视广告的最大投放者,但外界对其宣称的疗效一直持怀疑态度。\n\n4月17日,在媒体和舆论的持续关注下,被关押超过3个月的谭秦东被取保候审。出来后,谭对媒体称,“自由真好”。同日,新华社发表评论称,“跨省追捕要严格按程序、法规等操作,决不能任性行事”。\n\n再次跨省讯问\n\n5月17日,在被取保候审一个月后,谭秦东妻子刘璇在微博发布署名为谭秦东的个人声明。声明称,他本人在发帖时使用“毒药”做标题,主要是想用这种“抓眼球”的方式吸引读者,因此“考虑不周,缺乏严谨性”。该声明还称“希望鸿毛国药股份有限公司予以谅解”。\n\nBBC中文记者拨打刘璇手机无法接通,但手机语音提示“对方已启用来电提醒功能”。刘璇也未回复BBC中文记者的微信信息。\n\n刘璇此前告诉中国媒体记者,5月11日,内蒙古警方再次到达广州,对谭秦东进行了12个小时的讯问,随后谭出现精神异常,自言自语,说有人要杀他,要让他家破人亡。刘璇称不知道谭所言是否为真,因为谭在被讯问后,说这些话时已经出现了精神异常。\n\n取保候审走出看守所后,谭秦东说自己一度被吓得快要小便失禁。此事再次引发了对滥用警权的争议。\n\n5月14日,刘璇发微博称,谭秦东出现自残、自言自语、以头撞墙等行为,并于5月11日住院治疗。5月15日,刘璇又发微博称,“由于种种原因,我已将上一篇关于谭秦东住院的微博删除,非常抱歉,敬请谅解! ”\n\n刘璇称,谭秦东从内蒙看守所出来后,精神状态就一直不好,在心理医生干预下,秦的状态有所好转。熟料内蒙警方再次跨省讯问,令谭秦东精神彻底崩溃。\n\n律师说法\n\n谭秦东目前的状态是取保候审,但取保候审并不代表办案机关认为无罪,谭仍存在被逮捕或判刑的可能性。只有检察机关作出不起诉决定,或者公安机关作出撤销案件决定,谭秦东才可以获得法律上的自由。\n\n社交媒体上,网友纷纷对谭秦东道歉帖子是否属实表示怀疑。微博网友@生活必须冷静 称,谭秦东的诊断是应激性精神障碍,按道理说,是限制民事行为能力的病,那他的道歉声明是否是他的真实意思表示呢?\n\n鸿茅药酒是一个产自内蒙古自治区凉城县鸿茅镇的中药药酒,现由内蒙古鸿茅国药股份有限公司(鸿茅国药)生产,是一种甲类非处方药。鸿茅药酒是中国中央电视台2018年第一季度大陆地区电视广告的最大投放者,但外界对其宣称的疗效一直持怀疑态度。\n\n在谭秦东发布道歉声明后,鸿茅药酒于5月17日傍晚发布声明称,公司“接受谭秦东本人所做的致歉声明”,同时向公安局撤回报案并向法院撤回侵权诉讼。\n\n浙江律师吴有水告诉BBC中文,即使嫌疑人和受害者达成谅解,也不存在“撤回报案”之说。“公诉案件一旦经侦察机关立案,就不可能根据报案人的意志,说撤回就撤回。”吴有水说。\n\n谭秦东的代理律师胡定锋接受《新京报》采访时表示,谭秦东的文章部分内容引自公开报道,部分则是国家机关处罚截图,尽管标题采用相对情绪化的“毒药”字眼,但整体性质依然为科普文章,不应被认定为刑事犯罪。\n\n“前往广东与谭秦东沟通的,并不是鸿茅药酒的工作人员,而是内蒙警方,这足以说明,内蒙警方就是代表鸿茅药酒前来沟通的。也就是说,谭秦东被刑事拘留一事完全是警方根据鸿茅药酒的策划来进行的。”吴有水说。\n\n\\nThe previous content can be summarized as follows:","input":"","output":"在中国大陆引发广泛关注的内蒙古鸿茅药酒带警察跨省抓人事件又有新进展。5月17日下午,当事人谭秦东的妻子在微博发布谭的个人声明,向鸿茅药酒道歉。","meta":{"Dataset":"xP3","Gen":"COL","IFT":true,"Lang":"ML","Multi-round Dialog":false,"Preference":false,"SFT":false,"Task":"MT","origin_path":"Alpaca-CoT\/xP3\/zh\/merged_zh.jsonl"},"text":"Content: 2017年12月19日,广东医生谭秦东发布题为《中国神酒“鸿毛药酒”,来自天堂的毒药》的文章,称“中国神酒,只要每天一瓶,离天堂更近一点。”之后谭秦东遭到鸿茅药业起诉,并被内蒙古警方跨省拘捕。\n\n鸿茅药酒是一个产自内蒙古自治区凉城县鸿茅镇的中药药酒,是一种甲类非处方药。鸿茅药酒是中国中央电视台2018年第一季度大陆地区电视广告的最大投放者,但外界对其宣称的疗效一直持怀疑态度。\n\n4月17日,在媒体和舆论的持续关注下,被关押超过3个月的谭秦东被取保候审。出来后,谭对媒体称,“自由真好”。同日,新华社发表评论称,“跨省追捕要严格按程序、法规等操作,决不能任性行事”。\n\n再次跨省讯问\n\n5月17日,在被取保候审一个月后,谭秦东妻子刘璇在微博发布署名为谭秦东的个人声明。声明称,他本人在发帖时使用“毒药”做标题,主要是想用这种“抓眼球”的方式吸引读者,因此“考虑不周,缺乏严谨性”。该声明还称“希望鸿毛国药股份有限公司予以谅解”。\n\nBBC中文记者拨打刘璇手机无法接通,但手机语音提示“对方已启用来电提醒功能”。刘璇也未回复BBC中文记者的微信信息。\n\n刘璇此前告诉中国媒体记者,5月11日,内蒙古警方再次到达广州,对谭秦东进行了12个小时的讯问,随后谭出现精神异常,自言自语,说有人要杀他,要让他家破人亡。刘璇称不知道谭所言是否为真,因为谭在被讯问后,说这些话时已经出现了精神异常。\n\n取保候审走出看守所后,谭秦东说自己一度被吓得快要小便失禁。此事再次引发了对滥用警权的争议。\n\n5月14日,刘璇发微博称,谭秦东出现自残、自言自语、以头撞墙等行为,并于5月11日住院治疗。5月15日,刘璇又发微博称,“由于种种原因,我已将上一篇关于谭秦东住院的微博删除,非常抱歉,敬请谅解! ”\n\n刘璇称,谭秦东从内蒙看守所出来后,精神状态就一直不好,在心理医生干预下,秦的状态有所好转。熟料内蒙警方再次跨省讯问,令谭秦东精神彻底崩溃。\n\n律师说法\n\n谭秦东目前的状态是取保候审,但取保候审并不代表办案机关认为无罪,谭仍存在被逮捕或判刑的可能性。只有检察机关作出不起诉决定,或者公安机关作出撤销案件决定,谭秦东才可以获得法律上的自由。\n\n社交媒体上,网友纷纷对谭秦东道歉帖子是否属实表示怀疑。微博网友@生活必须冷静 称,谭秦东的诊断是应激性精神障碍,按道理说,是限制民事行为能力的病,那他的道歉声明是否是他的真实意思表示呢?\n\n鸿茅药酒是一个产自内蒙古自治区凉城县鸿茅镇的中药药酒,现由内蒙古鸿茅国药股份有限公司(鸿茅国药)生产,是一种甲类非处方药。鸿茅药酒是中国中央电视台2018年第一季度大陆地区电视广告的最大投放者,但外界对其宣称的疗效一直持怀疑态度。\n\n在谭秦东发布道歉声明后,鸿茅药酒于5月17日傍晚发布声明称,公司“接受谭秦东本人所做的致歉声明”,同时向公安局撤回报案并向法院撤回侵权诉讼。\n\n浙江律师吴有水告诉BBC中文,即使嫌疑人和受害者达成谅解,也不存在“撤回报案”之说。“公诉案件一旦经侦察机关立案,就不可能根据报案人的意志,说撤回就撤回。”吴有水说。\n\n谭秦东的代理律师胡定锋接受《新京报》采访时表示,谭秦东的文章部分内容引自公开报道,部分则是国家机关处罚截图,尽管标题采用相对情绪化的“毒药”字眼,但整体性质依然为科普文章,不应被认定为刑事犯罪。\n\n“前往广东与谭秦东沟通的,并不是鸿茅药酒的工作人员,而是内蒙警方,这足以说明,内蒙警方就是代表鸿茅药酒前来沟通的。也就是说,谭秦东被刑事拘留一事完全是警方根据鸿茅药酒的策划来进行的。”吴有水说。\n\n\\nThe previous content can be summarized as follows: 在中国大陆引发广泛关注的内蒙古鸿茅药酒带警察跨省抓人事件又有新进展。5月17日下午,当事人谭秦东的妻子在微博发布谭的个人声明,向鸿茅药酒道歉。"} -{"instruction":"Do these keywords \"低功耗, 范围匹配, 布鲁姆过滤器, 三态内容寻址存储器\" represent key concepts in the abstract \"该文基于布鲁姆过滤器算法和三态内容寻址存储器(TernaryContentAddressableMemory,TCAM)技术提出一种高效范围匹配方法,解决了目前TCAM范围匹配方案存在的存储利用率低、功耗大的问题。设计基于最长共同前缀的分段匹配算法(SegmentedMatchonLongestCommonPrefix,SMLCP)将范围匹配拆分为前缀匹配和特征区间比对两步,TCAM空间利用率达到100%。根据SMLCP算法设计了BF-TCAM模型,使用布鲁姆过滤器对关键字过滤,屏蔽无关项参与比较,大幅降低功耗。使用流水线缩短关键路径长度,使查找操作在一个时钟周期内完成。研究结果表明,所提方法实现了零范围扩张,工作功耗较传统TCAM降低50%以上。\"?","input":"","output":"yes","meta":{"Dataset":"xP3","Gen":"COL","IFT":true,"Lang":"ML","Multi-round Dialog":false,"Preference":false,"SFT":false,"Task":"MT","origin_path":"Alpaca-CoT\/xP3\/zh\/merged_zh.jsonl"},"text":"Do these keywords \"低功耗, 范围匹配, 布鲁姆过滤器, 三态内容寻址存储器\" represent key concepts in the abstract \"该文基于布鲁姆过滤器算法和三态内容寻址存储器(TernaryContentAddressableMemory,TCAM)技术提出一种高效范围匹配方法,解决了目前TCAM范围匹配方案存在的存储利用率低、功耗大的问题。设计基于最长共同前缀的分段匹配算法(SegmentedMatchonLongestCommonPrefix,SMLCP)将范围匹配拆分为前缀匹配和特征区间比对两步,TCAM空间利用率达到100%。根据SMLCP算法设计了BF-TCAM模型,使用布鲁姆过滤器对关键字过滤,屏蔽无关项参与比较,大幅降低功耗。使用流水线缩短关键路径长度,使查找操作在一个时钟周期内完成。研究结果表明,所提方法实现了零范围扩张,工作功耗较传统TCAM降低50%以上。\"? yes"} -{"instruction":"他們在埤頭鄉吳志發所租住處,共謀擄人勒贖。\n他為人民謀幸福,他是人民大救星。\nQuestion: Is the word '謀' used in the same sense in the two sentences above?","input":"","output":"No","meta":{"Dataset":"xP3","Gen":"COL","IFT":true,"Lang":"ML","Multi-round Dialog":false,"Preference":false,"SFT":false,"Task":"MT","origin_path":"Alpaca-CoT\/xP3\/zh\/merged_zh.jsonl"},"text":"他們在埤頭鄉吳志發所租住處,共謀擄人勒贖。\n他為人民謀幸福,他是人民大救星。\nQuestion: Is the word '謀' used in the same sense in the two sentences above? No"} -{"instruction":"Content: 勞埃德船級社報計劃結束印刷,全面上網\n\n勞埃德船級社報的前身是咖啡館牆上釘著的小字條,後來演變成日報,介紹世界航運界的信息。\n\n據悉,勞埃德船級社報將在今年12月20日推出最後一期紙版報,之後只有電子版。\n\n今年早些時候的一份調查發現,只有25個客戶使用印刷版報紙。\n\n該報主編理查德·米德(Richard Meade)說,報紙停止印刷,「不過是進化很自然的一部分」。\n\n他說,自1734年以來,報紙本身提供船務航運新聞和信息的宗旨並沒有太多變化。\n\n他說,我們實際上改變得並不多,但是,顧客們現在可以在全世界任何一家咖啡館裏看我們的消息和信息。\n\n米德還說,雖然該社內部難免懷舊,但顧客們都為獲得信息支付了高額費用,也等不了郵遞送來的報紙。\n\n勞埃德船級社報由愛德華·勞埃德創辦,當時釘在他經常光顧的咖啡館牆上,為18世紀的倫敦船運界人士提供輪船到港、離港、損失等信息。\n\n(編譯:羅玲 責編:顧垠)\n\n\\nThe previous content can be summarized as follows:","input":"","output":"有近三百年歷史的勞埃德船級社報(Lloyd's List)計劃今年年底停止印刷紙質版,只出電子版。","meta":{"Dataset":"xP3","Gen":"COL","IFT":true,"Lang":"ML","Multi-round Dialog":false,"Preference":false,"SFT":false,"Task":"MT","origin_path":"Alpaca-CoT\/xP3\/zh\/merged_zh.jsonl"},"text":"Content: 勞埃德船級社報計劃結束印刷,全面上網\n\n勞埃德船級社報的前身是咖啡館牆上釘著的小字條,後來演變成日報,介紹世界航運界的信息。\n\n據悉,勞埃德船級社報將在今年12月20日推出最後一期紙版報,之後只有電子版。\n\n今年早些時候的一份調查發現,只有25個客戶使用印刷版報紙。\n\n該報主編理查德·米德(Richard Meade)說,報紙停止印刷,「不過是進化很自然的一部分」。\n\n他說,自1734年以來,報紙本身提供船務航運新聞和信息的宗旨並沒有太多變化。\n\n他說,我們實際上改變得並不多,但是,顧客們現在可以在全世界任何一家咖啡館裏看我們的消息和信息。\n\n米德還說,雖然該社內部難免懷舊,但顧客們都為獲得信息支付了高額費用,也等不了郵遞送來的報紙。\n\n勞埃德船級社報由愛德華·勞埃德創辦,當時釘在他經常光顧的咖啡館牆上,為18世紀的倫敦船運界人士提供輪船到港、離港、損失等信息。\n\n(編譯:羅玲 責編:顧垠)\n\n\\nThe previous content can be summarized as follows: 有近三百年歷史的勞埃德船級社報(Lloyd's List)計劃今年年底停止印刷紙質版,只出電子版。"} -{"instruction":"美国华盛顿州一所中学发生枪击事件\\n枪击事件给学生家长带来恐慌\n\n事件发生在位于西雅图市以北大约50公里的一所名叫Marysville Pilchuck的中学,枪手是这所学校的学生。\n\n当地警方的一位发言人证实,事件中有两人死亡,枪手只有一人,而且枪手已经死亡。\n\n但是,这位警方发言人并没有说明枪手是如何死亡的。\n\n据来自当地媒体的消息说,枪手在向受害者开枪射击之后自杀身亡。\n\n在餐厅发生\n\n消息还显示,枪击发生在学校的餐厅。\n\n一位在餐厅就餐的学生对当地媒体说,他当时正在吃饭,听到身后发出四声枪响,他随后跑出餐厅。\n\n另一位学生说,当时有很多人在吃饭,枪手坐在那里很安静,大家在聊天。\n\n“他突然站起身来,从口袋里拔出手枪。三名学生随枪声倒下。”\n\n当地医院的一位发言人说,枪击发生后,有三名重伤员被送到医院。\n\n(编译:跃生 责编:横路)\n\n\\n\\ntl;dr:","input":"","output":"美国华盛顿州警方说,华盛顿州一所中学星期五(10月24日)发生枪击事件,造成包括枪手在内的两人死亡,另外四人受伤。","meta":{"Dataset":"xP3","Gen":"COL","IFT":true,"Lang":"ML","Multi-round Dialog":false,"Preference":false,"SFT":false,"Task":"MT","origin_path":"Alpaca-CoT\/xP3\/zh\/merged_zh.jsonl"},"text":"美国华盛顿州一所中学发生枪击事件\\n枪击事件给学生家长带来恐慌\n\n事件发生在位于西雅图市以北大约50公里的一所名叫Marysville Pilchuck的中学,枪手是这所学校的学生。\n\n当地警方的一位发言人证实,事件中有两人死亡,枪手只有一人,而且枪手已经死亡。\n\n但是,这位警方发言人并没有说明枪手是如何死亡的。\n\n据来自当地媒体的消息说,枪手在向受害者开枪射击之后自杀身亡。\n\n在餐厅发生\n\n消息还显示,枪击发生在学校的餐厅。\n\n一位在餐厅就餐的学生对当地媒体说,他当时正在吃饭,听到身后发出四声枪响,他随后跑出餐厅。\n\n另一位学生说,当时有很多人在吃饭,枪手坐在那里很安静,大家在聊天。\n\n“他突然站起身来,从口袋里拔出手枪。三名学生随枪声倒下。”\n\n当地医院的一位发言人说,枪击发生后,有三名重伤员被送到医院。\n\n(编译:跃生 责编:横路)\n\n\\n\\ntl;dr: 美国华盛顿州警方说,华盛顿州一所中学星期五(10月24日)发生枪击事件,造成包括枪手在内的两人死亡,另外四人受伤。"} -{"instruction":"Title: “港独”陈浩天争议中演讲 批评者目标何在\\nGiven the above title of an imaginary article, imagine the article.\\n","input":"","output":"香港FCC第一副主席马凯也谈到,邀请陈浩天演讲引来了不少“愤怒”的抨击。\n\n香港特区政府稍早前承认正考虑以国家安全为由取缔香港民族党,要求陈浩天在9月初或以前答辩。FCC邀请他在星期二(8月14日)演讲的消息公布后,引起亲北京阵营莫大反感。\n\n中国外交部驻港特派员公署在演说结束后发表长篇声明,对FCC坚持进行活动“表示义愤并予以谴责”,要求会方“反躬自省,纠正错误”。在会场外示威的亲北京阵营人士要求港府收回FCC楼房,也有建制派议员要求取缔FCC。FCC强调,邀请陈浩天不代表认同其言论。\n\n分析人士向BBC中文指出,香港的非建制人士不见得都支持“港独”,但也从维护言论自由角度出发,选择支持这次演讲进行。\n\n“陈浩天演说”事件经过是怎样的?\n\nFCC在7月30日公布邀请陈浩天到该会午餐会演讲,并把活动标题定为《香港民族主义:一份政治不正确的香港指南》。\n\n8月3日,英文网媒《香港自由新闻》(Hong Kong Free Press)引述FCC第一副主席,英国《金融时报》亚洲新闻主编马凯(Victor Mallet)说,中国外交部驻港公署曾派员到FCC送达文书,提出外交交涉。消息人士称公署“促请(会方)重新考虑”其邀请。公署当天以“答记者问”形式发表书面声明称,“坚决反对任何外部势力为‘港独’分子散布谬论提供讲台”,但并未证实曾向FCC提出交涉。\n\n“港独”演讲人陈浩天和FCC门外的抗议者\n\n翌日,中国政协副主席、前香港行政长官梁振英在其Facebook上发文,警告FCC“不能随心所欲”邀请演讲嘉宾:“外国记者协会不会请黑社会头目讲黑社会的主张,不会请恐怖分子教人如何骑劫飞机,为什么要请陈浩天讲港独?”\n\n在中国政治体制中被列为“副国级”国家领导人的梁振英同日再发表给马凯的公开信,强调邀请陈浩天演讲与言论自由无关,并质问FCC只以“象征式租金”(token rent)向港府租用中环雪厂街历史建筑,但陈浩天将“讽刺地”在该特区政府物业内阐述其“港独”理念。\n\n行政长官林郑月娥5日被记者追问此事时说,特区政府对FCC邀请陈浩天演讲感到遗憾,但同时称港府自1982年已根据市值租金向FCC租赁雪厂街物业。前香港电台记者兼FCC前执行委员莫泛思(Francis Moriarty)也在Facebook反驳称,他三年前卸任时,FCC已在缴付月租55万港元(7.7万美元;48.21万元人民币)。两人继而在Facebook上争辩数天。\n\n在此期间,最后一任英国香港总督彭定康勋爵(Lord Chris...","meta":{"Dataset":"xP3","Gen":"COL","IFT":true,"Lang":"ML","Multi-round Dialog":false,"Preference":false,"SFT":false,"Task":"MT","origin_path":"Alpaca-CoT\/xP3\/zh\/merged_zh.jsonl"},"text":"Title: “港独”陈浩天争议中演讲 批评者目标何在\\nGiven the above title of an imaginary article, imagine the article.\\n 香港FCC第一副主席马凯也谈到,邀请陈浩天演讲引来了不少“愤怒”的抨击。\n\n香港特区政府稍早前承认正考虑以国家安全为由取缔香港民族党,要求陈浩天在9月初或以前答辩。FCC邀请他在星期二(8月14日)演讲的消息公布后,引起亲北京阵营莫大反感。\n\n中国外交部驻港特派员公署在演说结束后发表长篇声明,对FCC坚持进行活动“表示义愤并予以谴责”,要求会方“反躬自省,纠正错误”。在会场外示威的亲北京阵营人士要求港府收回FCC楼房,也有建制派议员要求取缔FCC。FCC强调,邀请陈浩天不代表认同其言论。\n\n分析人士向BBC中文指出,香港的非建制人士不见得都支持“港独”,但也从维护言论自由角度出发,选择支持这次演讲进行。\n\n“陈浩天演说”事件经过是怎样的?\n\nFCC在7月30日公布邀请陈浩天到该会午餐会演讲,并把活动标题定为《香港民族主义:一份政治不正确的香港指南》。\n\n8月3日,英文网媒《香港自由新闻》(Hong Kong Free Press)引述FCC第一副主席,英国《金融时报》亚洲新闻主编马凯(Victor Mallet)说,中国外交部驻港公署曾派员到FCC送达文书,提出外交交涉。消息人士称公署“促请(会方)重新考虑”其邀请。公署当天以“答记者问”形式发表书面声明称,“坚决反对任何外部势力为‘港独’分子散布谬论提供讲台”,但并未证实曾向FCC提出交涉。\n\n“港独”演讲人陈浩天和FCC门外的抗议者\n\n翌日,中国政协副主席、前香港行政长官梁振英在其Facebook上发文,警告FCC“不能随心所欲”邀请演讲嘉宾:“外国记者协会不会请黑社会头目讲黑社会的主张,不会请恐怖分子教人如何骑劫飞机,为什么要请陈浩天讲港独?”\n\n在中国政治体制中被列为“副国级”国家领导人的梁振英同日再发表给马凯的公开信,强调邀请陈浩天演讲与言论自由无关,并质问FCC只以“象征式租金”(token rent)向港府租用中环雪厂街历史建筑,但陈浩天将“讽刺地”在该特区政府物业内阐述其“港独”理念。\n\n行政长官林郑月娥5日被记者追问此事时说,特区政府对FCC邀请陈浩天演讲感到遗憾,但同时称港府自1982年已根据市值租金向FCC租赁雪厂街物业。前香港电台记者兼FCC前执行委员莫泛思(Francis Moriarty)也在Facebook反驳称,他三年前卸任时,FCC已在缴付月租55万港元(7.7万美元;48.21万元人民币)。两人继而在Facebook上争辩数天。\n\n在此期间,最后一任英国香港总督彭定康勋爵(Lord Chris..."} -{"instruction":"一般来说,高血压对健康的影响主要来自血管变窄和硬化,减少了流向各个器官和身体部位的血液。心脏必须更用力泵血,久而久之会损伤心脏。当血管压力很高,血液流动时加诸在血管壁的压力会增加。这会导致血管壁肌肉变厚,内膜受损,脂肪斑块形成。 这两者会造成血管变窄和硬化,减少血流。当流向某个身体部位的血液减少了,它就无法获得所需的氧气和营养,组织会受损,进而死亡。我们可以通过血压推测出把血液输送到身体特定部位的难度。 高血压经常会引起心脏衰竭、肾脏和眼睛问题。 你需要测量血压,了解怎么解读这些数字,才能知道血压是否过高。血压由2个部分组成,分别是收缩压和舒张压。收缩压是心脏跳动时的血压,舒张压则是心脏在跳动的间隙休息时的血压。正常的收缩压低于120,正常的舒张压低于80。大多数人的血压应该要低于120\/80。 介于120-139\/80-89的血压被视为高血压前期。1级高血压为140-159\/90-99,2级高血压为160或以上\/100或以上。 血压在一天中的不同时间会有变动。睡觉和休息时的血压会稍微降低,兴奋、焦虑或活跃时的血压会稍微升高。所以,在数周到数个月内,有3次诊室血压值均高于正常,才会被诊断为高血压。 你可能只是单纯收缩压高或是单纯舒张压高。哪一个数字的级别更高,那你就会被归在那一类。比如说,如果你的血压是162\/79,那么你会被诊断为2级高血压。 不管血压读数多少,必须积极服用降压药的人都是高血压患者。 医生可能建议你在诊所以外的地方检查血压,比如药房、卫生处或自己在家使用血压袖带。 高血压可以分为原发性和继发性。原发性高血压是多年来逐步形成的,通常由许多因素共同造成,和一些独立的风险因素也有很强的关联。其中包括患者年龄,因为随着年龄增长,动脉会慢慢变窄和硬化。 体重增加和肥胖也是主要的风险因素之一。在早期,体重增加导致心脏必须更用力泵血,从而使心输出量增加。久而久之,脂肪和糖代谢被打乱,导致血压升高。糖尿病和血脂异常也会分别导致糖和脂肪代谢失调,同样会增加罹患高血压的风险。 父母患有高血压的人更容易患上原发性高血压。研究显示可能高达30%的高血压案例与遗传有关。 原发性高血压的其它风险因素包括压力、抑郁、种族、钠摄入量高、饮酒过度和体能活动不足。 继发性高血压不是因为生活方式不健康而慢慢形成的。它们是由某种明确的疾病引起的,其中包括肾脏问题。肾脏负责调节血液里的液体成分,并排出体内多余的水。急性和慢性肾病都会影响身体功能,导致过多液体潴留在体内,增加血容量,形成高血压。 肾上腺肿瘤会分泌影响心率、血管收缩和肾脏功能的激素,可能导致血压升高。 其它会引起继发性高血压的情况包括甲状腺问题,阻塞性睡眠呼吸暂停,服用某些药物和滥用非法药物。 在罕见的情况下,有些儿童的大血管有先天性缺陷和畸形。这会影响血流,引起高血压。 在某些情况下,你需要紧急治疗高血压。长期高血压会引发心血管疾病、肾脏损伤,并损坏眼睛和外围神经。这些损伤会引起心脏病发和中风,造成严重的健康问题,甚至导致死亡。即使你努力通过改变生活方式、使用天然和医学疗法来控制血压,也未必能避免这些情况的发生。了解心脏病发和中风的迹象,以便及时求医: 心脏病发的症状包括胸口疼痛或感到沉重,手臂(通常是左臂)、腹部、背部或下巴疼痛,呼吸短促,恶心、呕吐、出汗、头晕和疲倦。 中风症状包括脸部或四肢突然感到麻痹或刺痛、肌肉无力或瘫痪,视力障碍,说话困难,精神混乱,很难理解别人说的话和严重头痛。 恶性高血压的迹象包括视力模糊、焦虑、精神混乱、警觉性下降、注意力下降、疲倦、焦躁不安、昏昏欲睡、神志不清、无精打采、胸痛、咳嗽、头痛、恶心或呕吐,手臂、腿、脸或其它部位麻痹,尿量减少,痉挛,呼吸短促,手臂、腿、脸或其它部位的肌肉无力。\n\n===\nWrite a summary of the previous text in Chinese:","input":"","output":"了解高血压。 测量血压。 了解高血压的诊断方式。 了解原发性高血压。 了解继发性高血压。 寻求紧急治疗。","meta":{"Dataset":"xP3","Gen":"COL","IFT":true,"Lang":"ML","Multi-round Dialog":false,"Preference":false,"SFT":false,"Task":"MT","origin_path":"Alpaca-CoT\/xP3\/zh\/merged_zh.jsonl"},"text":"一般来说,高血压对健康的影响主要来自血管变窄和硬化,减少了流向各个器官和身体部位的血液。心脏必须更用力泵血,久而久之会损伤心脏。当血管压力很高,血液流动时加诸在血管壁的压力会增加。这会导致血管壁肌肉变厚,内膜受损,脂肪斑块形成。 这两者会造成血管变窄和硬化,减少血流。当流向某个身体部位的血液减少了,它就无法获得所需的氧气和营养,组织会受损,进而死亡。我们可以通过血压推测出把血液输送到身体特定部位的难度。 高血压经常会引起心脏衰竭、肾脏和眼睛问题。 你需要测量血压,了解怎么解读这些数字,才能知道血压是否过高。血压由2个部分组成,分别是收缩压和舒张压。收缩压是心脏跳动时的血压,舒张压则是心脏在跳动的间隙休息时的血压。正常的收缩压低于120,正常的舒张压低于80。大多数人的血压应该要低于120\/80。 介于120-139\/80-89的血压被视为高血压前期。1级高血压为140-159\/90-99,2级高血压为160或以上\/100或以上。 血压在一天中的不同时间会有变动。睡觉和休息时的血压会稍微降低,兴奋、焦虑或活跃时的血压会稍微升高。所以,在数周到数个月内,有3次诊室血压值均高于正常,才会被诊断为高血压。 你可能只是单纯收缩压高或是单纯舒张压高。哪一个数字的级别更高,那你就会被归在那一类。比如说,如果你的血压是162\/79,那么你会被诊断为2级高血压。 不管血压读数多少,必须积极服用降压药的人都是高血压患者。 医生可能建议你在诊所以外的地方检查血压,比如药房、卫生处或自己在家使用血压袖带。 高血压可以分为原发性和继发性。原发性高血压是多年来逐步形成的,通常由许多因素共同造成,和一些独立的风险因素也有很强的关联。其中包括患者年龄,因为随着年龄增长,动脉会慢慢变窄和硬化。 体重增加和肥胖也是主要的风险因素之一。在早期,体重增加导致心脏必须更用力泵血,从而使心输出量增加。久而久之,脂肪和糖代谢被打乱,导致血压升高。糖尿病和血脂异常也会分别导致糖和脂肪代谢失调,同样会增加罹患高血压的风险。 父母患有高血压的人更容易患上原发性高血压。研究显示可能高达30%的高血压案例与遗传有关。 原发性高血压的其它风险因素包括压力、抑郁、种族、钠摄入量高、饮酒过度和体能活动不足。 继发性高血压不是因为生活方式不健康而慢慢形成的。它们是由某种明确的疾病引起的,其中包括肾脏问题。肾脏负责调节血液里的液体成分,并排出体内多余的水。急性和慢性肾病都会影响身体功能,导致过多液体潴留在体内,增加血容量,形成高血压。 肾上腺肿瘤会分泌影响心率、血管收缩和肾脏功能的激素,可能导致血压升高。 其它会引起继发性高血压的情况包括甲状腺问题,阻塞性睡眠呼吸暂停,服用某些药物和滥用非法药物。 在罕见的情况下,有些儿童的大血管有先天性缺陷和畸形。这会影响血流,引起高血压。 在某些情况下,你需要紧急治疗高血压。长期高血压会引发心血管疾病、肾脏损伤,并损坏眼睛和外围神经。这些损伤会引起心脏病发和中风,造成严重的健康问题,甚至导致死亡。即使你努力通过改变生活方式、使用天然和医学疗法来控制血压,也未必能避免这些情况的发生。了解心脏病发和中风的迹象,以便及时求医: 心脏病发的症状包括胸口疼痛或感到沉重,手臂(通常是左臂)、腹部、背部或下巴疼痛,呼吸短促,恶心、呕吐、出汗、头晕和疲倦。 中风症状包括脸部或四肢突然感到麻痹或刺痛、肌肉无力或瘫痪,视力障碍,说话困难,精神混乱,很难理解别人说的话和严重头痛。 恶性高血压的迹象包括视力模糊、焦虑、精神混乱、警觉性下降、注意力下降、疲倦、焦躁不安、昏昏欲睡、神志不清、无精打采、胸痛、咳嗽、头痛、恶心或呕吐,手臂、腿、脸或其它部位麻痹,尿量减少,痉挛,呼吸短促,手臂、腿、脸或其它部位的肌肉无力。\n\n===\nWrite a summary of the previous text in Chinese: 了解高血压。 测量血压。 了解高血压的诊断方式。 了解原发性高血压。 了解继发性高血压。 寻求紧急治疗。"} -{"instruction":"皮尤民調顯示許多美國人對中國崛起感到擔心\n\n接受皮尤研究中心調查提問者中,過半都認為上述三個領域的問題最嚴重。美國公眾繼續看到同中國有關的一系列問題,中國崛起是主要擔心之一。皮尤中心認為,經濟問題特別突出。\n\n這項民調在奧巴馬總統凖備接待中國國家主席習近平之前公布。習近平在本月晚些時候將對美國進行首次國事訪問。訪問的具體日期還沒有宣佈。\n\n研究中心說,在美國人當中,認為債務、就業和赤字是「有些嚴重」或者「十分嚴重」的人數很多。\n\n這也就是說,89%的人擔心中國持有美國債務的問題(中國持有12.7萬億美國國債),89%的人擔憂美國工作流向中國,86%的人擔憂美國和中國的貿易赤字。\n\n不過表示問題「非常嚴重」的人數比3年前的皮尤民調的數字減少了11%。\n\n在周三(9日)公布的這項調查中,86%的接受提問者說來自中國的網絡攻擊令他們有一定擔心或十分擔心。\n\n這個電話民調在4月和5月初進行,6月才出現網絡攻擊致使數百萬美國聯邦雇員的資料被盜,許多人認為那次攻擊來自中國。\n\n其他的非經濟問題諸如中國的人權紀錄,對全球環境的衝擊,以及軍力增長,認為這些問題有些嚴重或者十分嚴重的人數比例在85%和82%。\n\n問卷中8個問題最後的一個是關於台海兩岸的緊張關係。21%的人認為問題很嚴重,45%的人認為有些嚴重。\n\n皮尤民調顯示,在美國凖備明年的總統選舉的時候,共和黨支持者對於中國的擔憂超過了民主黨人。\n\n例如77%的共和黨人說,中國持有的巨額美國債務是個十分嚴重的問題,而只有60%的民主黨人認為這個問題很嚴重。\n\n調查中的8個問題當中的6個裏面,共和黨人的表現都比民主黨人更焦慮。\n\n但人權問題是個例外,在此問題上兩黨支持者的表現沒有明顯差別。民調顯示,民主黨人更擔心中國對環境的影響。\n\n民調在4月13日-5月3日之間進行,1003名美國人接受了問卷調查。民調誤差為3.6%.\n\n(編譯:橫路\/責編:路西)\n\n \\n\\nGive me a good title for the article above.","input":"","output":"民調顯示中美關係經濟問題令美國人擔憂","meta":{"Dataset":"xP3","Gen":"COL","IFT":true,"Lang":"ML","Multi-round Dialog":false,"Preference":false,"SFT":false,"Task":"MT","origin_path":"Alpaca-CoT\/xP3\/zh\/merged_zh.jsonl"},"text":"皮尤民調顯示許多美國人對中國崛起感到擔心\n\n接受皮尤研究中心調查提問者中,過半都認為上述三個領域的問題最嚴重。美國公眾繼續看到同中國有關的一系列問題,中國崛起是主要擔心之一。皮尤中心認為,經濟問題特別突出。\n\n這項民調在奧巴馬總統凖備接待中國國家主席習近平之前公布。習近平在本月晚些時候將對美國進行首次國事訪問。訪問的具體日期還沒有宣佈。\n\n研究中心說,在美國人當中,認為債務、就業和赤字是「有些嚴重」或者「十分嚴重」的人數很多。\n\n這也就是說,89%的人擔心中國持有美國債務的問題(中國持有12.7萬億美國國債),89%的人擔憂美國工作流向中國,86%的人擔憂美國和中國的貿易赤字。\n\n不過表示問題「非常嚴重」的人數比3年前的皮尤民調的數字減少了11%。\n\n在周三(9日)公布的這項調查中,86%的接受提問者說來自中國的網絡攻擊令他們有一定擔心或十分擔心。\n\n這個電話民調在4月和5月初進行,6月才出現網絡攻擊致使數百萬美國聯邦雇員的資料被盜,許多人認為那次攻擊來自中國。\n\n其他的非經濟問題諸如中國的人權紀錄,對全球環境的衝擊,以及軍力增長,認為這些問題有些嚴重或者十分嚴重的人數比例在85%和82%。\n\n問卷中8個問題最後的一個是關於台海兩岸的緊張關係。21%的人認為問題很嚴重,45%的人認為有些嚴重。\n\n皮尤民調顯示,在美國凖備明年的總統選舉的時候,共和黨支持者對於中國的擔憂超過了民主黨人。\n\n例如77%的共和黨人說,中國持有的巨額美國債務是個十分嚴重的問題,而只有60%的民主黨人認為這個問題很嚴重。\n\n調查中的8個問題當中的6個裏面,共和黨人的表現都比民主黨人更焦慮。\n\n但人權問題是個例外,在此問題上兩黨支持者的表現沒有明顯差別。民調顯示,民主黨人更擔心中國對環境的影響。\n\n民調在4月13日-5月3日之間進行,1003名美國人接受了問卷調查。民調誤差為3.6%.\n\n(編譯:橫路\/責編:路西)\n\n \\n\\nGive me a good title for the article above. 民調顯示中美關係經濟問題令美國人擔憂"} -{"instruction":":)","input":"","output":":)","meta":{"Dataset":"MOSS","Gen":"SI","IFT":false,"Lang":"EN\/CN","Multi-round Dialog":false,"Preference":false,"SFT":true,"Task":"TS","origin_path":"Alpaca-CoT\/MOSS\/moss-002-sft\/zh_honesty.jsonl"},"text":":) :)"} -{"instruction":"撰寫一段ASCII圖示,表達心情思緒洶湧,創意像潮水般湧入腦海。","input":"","output":"\\ | \\\/\n \\ || \\\/\n \\ |||\\\/\n \\ ||| \\\/\n \\ ||| \\\/\n \\ | \\\/\n \\ | \\\/\n \\\/------------- | ----------------\\\n | | |\n \\\/----------- | ------------- |\n | \\ | \\ |\n | \\ \\\/----- | \\ \\ |\n \\ \\ \\\/ | \\\/ \\ |\n \\ \\\/ | | \\\/ | \\ |\n \\\\\/ | | | \\\/ \\|\n \\ \\\/ | \\\/ \\ | |\n \\\/ | | \\\/ | \\ |\n | \\\/ | \\ | |\n |\\\/ \\ \\ | |\n | \\ \\| |\n | \\ | |\n | \\ | \\\/\n | \\ |\\\/\n | \\ \\\/\n | \\ |\\\/\n | \\ \\\/\n | \\\\\/","meta":{"Dataset":"Guanaco","Gen":"SI","IFT":false,"Lang":"ML","Multi-round Dialog":false,"Preference":false,"SFT":true,"Task":"MT","origin_path":"Alpaca-CoT\\\/Guanaco\\\/GuanacoDataset.jsonl"},"text":"撰寫一段ASCII圖示,表達心情思緒洶湧,創意像潮水般湧入腦海。 \\ | \\\/\n \\ || \\\/\n \\ |||\\\/\n \\ ||| \\\/\n \\ ||| \\\/\n \\ | \\\/\n \\ | \\\/\n \\\/------------- | ----------------\\\n | | |\n \\\/----------- | ------------- |\n | \\ | \\ |\n | \\ \\\/----- | \\ \\ |\n \\ \\ \\\/ | \\\/ \\ |\n \\ \\\/ | | \\\/ | \\ |\n \\\\\/ | | | \\\/ \\|\n \\ \\\/ | \\\/ \\ | |\n \\\/ | | \\\/ | \\ |\n | \\\/ | \\ | |\n |\\\/ \\ \\ | |\n | \\ \\| |\n | \\ | |\n | \\ | \\\/\n | \\ |\\\/\n | \\ \\\/\n | \\ |\\\/\n | \\ \\\/\n | \\\\\/"} -{"instruction":"橙色","input":"","output":"好的,我给你画一张橙色的风筝图,如下所示:\n\n```\n \\\/\\\n \\\/ \\\n \\\/ \\\n \\\/ \\\n \\\/ \\\n \\\/ \\\n \\\/ \\\n \\\/ \\\n \\\/ \\\n \\\/ \\\n \\ \\\/\n \\ \\\/\n \\ \\\/\n \\ \\\/\n \\ \\\/\n \\ \\\/\n \\ \\\/\n \\ \\\/\n \\ \\\/\n \\\\\/\n```","meta":{"Dataset":"MOSS","Gen":"SI","IFT":false,"Lang":"EN\/CN","Multi-round Dialog":false,"Preference":false,"SFT":true,"Task":"TS","origin_path":"Alpaca-CoT\\\/MOSS\\\/moss-002-sft\\\/zh_helpfulness.jsonl"},"text":"橙色 好的,我给你画一张橙色的风筝图,如下所示:\n\n```\n \\\/\\\n \\\/ \\\n \\\/ \\\n \\\/ \\\n \\\/ \\\n \\\/ \\\n \\\/ \\\n \\\/ \\\n \\\/ \\\n \\\/ \\\n \\ \\\/\n \\ \\\/\n \\ \\\/\n \\ \\\/\n \\ \\\/\n \\ \\\/\n \\ \\\/\n \\ \\\/\n \\ \\\/\n \\\\\/\n```"} -{"instruction":"好的!","input":"","output":"好极了!","meta":{"Dataset":"MOSS","Gen":"SI","IFT":false,"Lang":"EN\/CN","Multi-round Dialog":false,"Preference":false,"SFT":true,"Task":"TS","origin_path":"Alpaca-CoT\/MOSS\/moss-002-sft\/zh_helpfulness.jsonl"},"text":"好的! 好极了!"} -{"instruction":"退下","input":"","output":"再见!","meta":{"Dataset":"MOSS","Gen":"SI","IFT":false,"Lang":"EN\/CN","Multi-round Dialog":false,"Preference":false,"SFT":true,"Task":"TS","origin_path":"Alpaca-CoT\/MOSS\/moss-002-sft\/zh_helpfulness.jsonl"},"text":"退下 再见!"} -{"instruction":"保重","input":"","output":"保重!","meta":{"Dataset":"MOSS","Gen":"SI","IFT":false,"Lang":"EN\/CN","Multi-round Dialog":false,"Preference":false,"SFT":true,"Task":"TS","origin_path":"Alpaca-CoT\/MOSS\/moss-002-sft\/zh_helpfulness.jsonl"},"text":"保重 保重!"} -{"instruction":"这些观点有哪些?","input":"","output":"基于对文章的分析,这篇文章提出了以下几点观点:1、xxx;2、xxx;3、xxx;4、xxx;5、xxx。","meta":{"Dataset":"MOSS","Gen":"SI","IFT":false,"Lang":"EN\/CN","Multi-round Dialog":false,"Preference":false,"SFT":true,"Task":"TS","origin_path":"Alpaca-CoT\/MOSS\/moss-002-sft\/zh_helpfulness.jsonl"},"text":"这些观点有哪些? 基于对文章的分析,这篇文章提出了以下几点观点:1、xxx;2、xxx;3、xxx;4、xxx;5、xxx。"} -{"instruction":"为一组电影列表添加与电影类型相关的标签。","input":"某个电影推荐网站的前100名电影列表,包括电影名称和类型。","output":"添加标签:\n\n1. 动作片:XXX、XXX、XXX...\n2. 喜剧片:XXX、XXX、XXX...\n3. 科幻片:XXX、XXX、XXX...\n4. 恐怖片:XXX、XXX、XXX...\n5. 爱情片:XXX、XXX、XXX...\n6. 剧情片:XXX、XXX、XXX...\n7. 纪录片:XXX、XXX、XXX...\n8. 动画片:XXX、XXX、XXX...\n9. 战争片:XXX、XXX、XXX...\n10. 悬疑片:XXX、XXX、XXX...","meta":{"Dataset":"belle_cn","Gen":"SI","IFT":false,"Lang":"CN","Multi-round Dialog":false,"Preference":false,"SFT":true,"Task":"TS\/MT","origin_path":"Alpaca-CoT\/belle_cn\/belle_instructions\/belle_data1M_cn.jsonl"},"text":"为一组电影列表添加与电影类型相关的标签。 某个电影推荐网站的前100名电影列表,包括电影名称和类型。 添加标签:\n\n1. 动作片:XXX、XXX、XXX...\n2. 喜剧片:XXX、XXX、XXX...\n3. 科幻片:XXX、XXX、XXX...\n4. 恐怖片:XXX、XXX、XXX...\n5. 爱情片:XXX、XXX、XXX...\n6. 剧情片:XXX、XXX、XXX...\n7. 纪录片:XXX、XXX、XXX...\n8. 动画片:XXX、XXX、XXX...\n9. 战争片:XXX、XXX、XXX...\n10. 悬疑片:XXX、XXX、XXX..."} -{"instruction":"磷","input":"","output":"磷","meta":{"Dataset":"ShareGPT","Gen":"MIX","IFT":false,"Lang":"EN","Multi-round Dialog":true,"Preference":false,"SFT":true,"Task":"MT","origin_path":"Alpaca-CoT\/ShareGPT\/sharegpt_zh.jsonl"},"text":"磷 磷"} -{"instruction":"酶","input":"","output":"酶","meta":{"Dataset":"ShareGPT","Gen":"MIX","IFT":false,"Lang":"EN","Multi-round Dialog":true,"Preference":false,"SFT":true,"Task":"MT","origin_path":"Alpaca-CoT\/ShareGPT\/sharegpt_zh.jsonl"},"text":"酶 酶"} -{"instruction":"输出一个正方形","input":"","output":"","meta":{"Dataset":"Guanaco","Gen":"SI","IFT":false,"Lang":"ML","Multi-round Dialog":false,"Preference":false,"SFT":true,"Task":"MT","origin_path":"Alpaca-CoT\/Guanaco\/GuanacoDataset.jsonl"},"text":"输出一个正方形 "} diff --git a/tools/preprocess/raw_alpaca_cot_merge_add_meta.py b/tools/preprocess/raw_alpaca_cot_merge_add_meta.py index 96feae2e0..52b3fb5f4 100644 --- a/tools/preprocess/raw_alpaca_cot_merge_add_meta.py +++ b/tools/preprocess/raw_alpaca_cot_merge_add_meta.py @@ -16,11 +16,12 @@ 'Gen': 'HG', # Alpaca-Cot original Gen 'Lang': 'EN/CN', # Alpaca-Cot original Language 'Dataset': 'Chain-of-Thought', # sub directory - 'Multi-round Dialog': + 'CFT-MR': False, # whether is Multi-round Dialog data, added by Data-Juicer 'IFT': True, # whether is IFT data, added by Data-Juicer - 'SFT': False, # whether is SFT data, added by Data-Juicer - 'Preference': + 'CFT-SR': False, # whether is CFT single-round data, added by + # Data-Juicer + 'CFT-P': False, # whether is Preference data, added by Data-Juicer }, 'GPT4all': { @@ -28,380 +29,380 @@ 'Gen': 'COL', 'Lang': 'EN', 'Dataset': 'GPT4all', - 'Multi-round Dialog': False, + 'CFT-MR': False, 'IFT': True, - 'SFT': True, - 'Preference': False, + 'CFT-SR': True, + 'CFT-P': False, }, 'GPTeacher': { 'Task': 'MT', 'Gen': 'SI', 'Lang': 'EN', 'Dataset': 'GPTeacher', - 'Multi-round Dialog': False, + 'CFT-MR': False, 'IFT': False, - 'SFT': True, - 'Preference': False, + 'CFT-SR': True, + 'CFT-P': False, }, 'Guanaco': { 'Task': 'MT', 'Gen': 'SI', 'Lang': 'ML', 'Dataset': 'Guanaco', - 'Multi-round Dialog': False, + 'CFT-MR': False, 'IFT': False, - 'SFT': True, - 'Preference': False, + 'CFT-SR': True, + 'CFT-P': False, }, 'HC3': { 'Task': 'TS', 'Gen': 'MIX', 'Lang': 'EN/CN', 'Dataset': 'HC3', - 'Multi-round Dialog': False, + 'CFT-MR': False, 'IFT': False, - 'SFT': True, - 'Preference': True, + 'CFT-SR': True, + 'CFT-P': True, }, 'alpaca': { 'Task': 'MT', 'Gen': 'SI', 'Lang': 'EN', 'Dataset': 'alpaca', - 'Multi-round Dialog': False, + 'CFT-MR': False, 'IFT': False, - 'SFT': True, - 'Preference': False, + 'CFT-SR': True, + 'CFT-P': False, }, 'Natural-Instructions': { 'Task': 'MT', 'Gen': 'COL', 'Lang': 'ML', 'Dataset': 'Natural-Instructions', - 'Multi-round Dialog': False, + 'CFT-MR': False, 'IFT': True, - 'SFT': False, - 'Preference': False, + 'CFT-SR': False, + 'CFT-P': False, }, 'belle_cn': { 'Task': 'TS/MT', 'Gen': 'SI', 'Lang': 'CN', 'Dataset': 'belle_cn', - 'Multi-round Dialog': False, + 'CFT-MR': False, 'IFT': False, - 'SFT': True, - 'Preference': False, + 'CFT-SR': True, + 'CFT-P': False, }, 'instinwild': { 'Task': 'MT', 'Gen': 'SI', 'Lang': 'EN/CN', 'Dataset': 'instinwild', - 'Multi-round Dialog': False, + 'CFT-MR': False, 'IFT': False, - 'SFT': True, - 'Preference': False, + 'CFT-SR': True, + 'CFT-P': False, }, 'prosocial-dialog': { 'Task': 'TS', 'Gen': 'MIX', 'Lang': 'EN', 'Dataset': 'prosocial-dialog', - 'Multi-round Dialog': False, + 'CFT-MR': False, 'IFT': False, - 'SFT': True, - 'Preference': False, + 'CFT-SR': True, + 'CFT-P': False, }, 'finance': { 'Task': 'TS', 'Gen': 'COL', 'Lang': 'EN', 'Dataset': 'finance', - 'Multi-round Dialog': False, + 'CFT-MR': False, 'IFT': False, - 'SFT': True, - 'Preference': False, + 'CFT-SR': True, + 'CFT-P': False, }, 'xP3': { 'Task': 'MT', 'Gen': 'COL', 'Lang': 'ML', 'Dataset': 'xP3', - 'Multi-round Dialog': False, + 'CFT-MR': False, 'IFT': True, - 'SFT': False, - 'Preference': False, + 'CFT-SR': False, + 'CFT-P': False, }, 'firefly': { 'Task': 'MT', 'Gen': 'COL', 'Lang': 'CN', 'Dataset': 'firefly', - 'Multi-round Dialog': False, + 'CFT-MR': False, 'IFT': True, - 'SFT': False, - 'Preference': False, + 'CFT-SR': False, + 'CFT-P': False, }, 'instruct': { 'Task': 'MT', 'Gen': 'COL', 'Lang': 'EN', 'Dataset': 'instruct', - 'Multi-round Dialog': False, + 'CFT-MR': False, 'IFT': False, - 'SFT': True, - 'Preference': False, + 'CFT-SR': True, + 'CFT-P': False, }, 'CodeAlpaca': { 'Task': 'TS', 'Gen': 'SI', 'Lang': 'EN', 'Dataset': 'CodeAlpaca', - 'Multi-round Dialog': False, + 'CFT-MR': False, 'IFT': True, - 'SFT': False, - 'Preference': False, + 'CFT-SR': False, + 'CFT-P': False, }, 'alpacaGPT4': { 'Task': 'MT', 'Gen': 'SI', 'Lang': 'EN/CN', 'Dataset': 'alpacaGPT4', - 'Multi-round Dialog': False, + 'CFT-MR': False, 'IFT': False, - 'SFT': True, - 'Preference': True, + 'CFT-SR': True, + 'CFT-P': True, }, 'webGPT': { 'Task': 'TS', 'Gen': 'MIX', 'Lang': 'EN', 'Dataset': 'webGPT', - 'Multi-round Dialog': False, + 'CFT-MR': False, 'IFT': True, - 'SFT': False, - 'Preference': True, + 'CFT-SR': False, + 'CFT-P': True, }, 'dolly': { 'Task': 'TS', 'Gen': 'HG', 'Lang': 'EN', 'Dataset': 'dolly', - 'Multi-round Dialog': False, + 'CFT-MR': False, 'IFT': False, - 'SFT': True, - 'Preference': False, + 'CFT-SR': True, + 'CFT-P': False, }, 'baize': { 'Task': 'MT', 'Gen': 'COL', 'Lang': 'EN', 'Dataset': 'baize', - 'Multi-round Dialog': False, + 'CFT-MR': False, 'IFT': False, - 'SFT': True, - 'Preference': False, + 'CFT-SR': True, + 'CFT-P': False, }, 'hh-rlhf': { 'Task': 'TS', 'Gen': 'MIX', 'Lang': 'EN', 'Dataset': 'hh-rlhf', - 'Multi-round Dialog': True, + 'CFT-MR': True, 'IFT': False, - 'SFT': True, - 'Preference': True, + 'CFT-SR': True, + 'CFT-P': True, }, 'OIG': { 'Task': 'MT', 'Gen': 'COL', 'Lang': 'EN', 'Dataset': 'OIG', - 'Multi-round Dialog': False, + 'CFT-MR': False, 'IFT': False, - 'SFT': True, - 'Preference': False, + 'CFT-SR': True, + 'CFT-P': False, }, 'GAOKAO': { 'Task': 'MT', 'Gen': 'COL', 'Lang': 'CN', 'Dataset': 'GAOKAO', - 'Multi-round Dialog': False, + 'CFT-MR': False, 'IFT': True, - 'SFT': False, - 'Preference': False, + 'CFT-SR': False, + 'CFT-P': False, }, 'camel': { 'Task': 'MT', 'Gen': 'SI', 'Lang': 'EN', 'Dataset': 'camel', - 'Multi-round Dialog': False, + 'CFT-MR': False, 'IFT': True, - 'SFT': False, - 'Preference': False, + 'CFT-SR': False, + 'CFT-P': False, }, 'FLAN-Muffin': { 'Task': 'MT', 'Gen': 'COL', 'Lang': 'EN', 'Dataset': 'FLAN-Muffin', - 'Multi-round Dialog': False, + 'CFT-MR': False, 'IFT': True, - 'SFT': False, - 'Preference': False, + 'CFT-SR': False, + 'CFT-P': False, }, 'COIG': { 'Task': 'MT', 'Gen': 'COL', 'Lang': 'CN', 'Dataset': 'COIG', - 'Multi-round Dialog': False, + 'CFT-MR': False, 'IFT': False, - 'SFT': True, - 'Preference': False, + 'CFT-SR': True, + 'CFT-P': False, }, 'gpt4tools': { 'Task': 'MT', 'Gen': 'SI', 'Lang': 'EN', 'Dataset': 'gpt4tools', - 'Multi-round Dialog': False, + 'CFT-MR': False, 'IFT': True, - 'SFT': False, - 'Preference': False, + 'CFT-SR': False, + 'CFT-P': False, }, 'ShareGPT': { 'Task': 'MT', 'Gen': 'MIX', 'Lang': 'EN', 'Dataset': 'ShareGPT', - 'Multi-round Dialog': True, + 'CFT-MR': True, 'IFT': False, - 'SFT': True, - 'Preference': False, + 'CFT-SR': True, + 'CFT-P': False, }, 'Auto-CoT': { 'Task': 'MT', 'Gen': 'COL', 'Lang': 'EN', 'Dataset': 'Auto-CoT', - 'Multi-round Dialog': False, + 'CFT-MR': False, 'IFT': True, - 'SFT': False, - 'Preference': False, + 'CFT-SR': False, + 'CFT-P': False, }, 'MOSS': { 'Task': 'TS', 'Gen': 'SI', 'Lang': 'EN/CN', 'Dataset': 'MOSS', - 'Multi-round Dialog': False, + 'CFT-MR': False, 'IFT': False, - 'SFT': True, - 'Preference': False, + 'CFT-SR': True, + 'CFT-P': False, }, 'ultrachat': { 'Task': 'TS', 'Gen': 'SI', 'Lang': 'EN', 'Dataset': 'ultrachat', - 'Multi-round Dialog': False, + 'CFT-MR': False, 'IFT': False, - 'SFT': True, - 'Preference': False, + 'CFT-SR': True, + 'CFT-P': False, }, 'Chinese-medical': { 'Task': 'TS', 'Gen': 'COL', 'Lang': 'CN', 'Dataset': 'Chinese-medical', - 'Multi-round Dialog': False, + 'CFT-MR': False, 'IFT': False, - 'SFT': True, - 'Preference': False, + 'CFT-SR': True, + 'CFT-P': False, }, 'CSL': { 'Task': 'MT', 'Gen': 'COL', 'Lang': 'CN', 'Dataset': 'CSL', - 'Multi-round Dialog': False, + 'CFT-MR': False, 'IFT': True, - 'SFT': False, - 'Preference': False, + 'CFT-SR': False, + 'CFT-P': False, }, 'pCLUE': { 'Task': 'MT', 'Gen': 'COL', 'Lang': 'CN', 'Dataset': 'pCLUE', - 'Multi-round Dialog': False, + 'CFT-MR': False, 'IFT': True, - 'SFT': False, - 'Preference': False, + 'CFT-SR': False, + 'CFT-P': False, }, 'news_commentary': { 'Task': 'TS', 'Gen': 'COL', 'Lang': 'CN', 'Dataset': 'news_commentary', - 'Multi-round Dialog': False, + 'CFT-MR': False, 'IFT': True, - 'SFT': False, - 'Preference': False, + 'CFT-SR': False, + 'CFT-P': False, }, 'StackExchange': { 'Task': 'MT', 'Gen': 'COL', 'Lang': 'EN', 'Dataset': 'StackExchange', - 'Multi-round Dialog': False, + 'CFT-MR': False, 'IFT': False, - 'SFT': True, - 'Preference': True, + 'CFT-SR': True, + 'CFT-P': True, }, "ConvAI2": { "Task": "TS", "Gen": "HG", "Lang": "EN", "Dataset": "ConvAI2", - "Multi-round Dialog": False, + "CFT-MR": False, "IFT": False, - "SFT": True, - "Preference": False, + "CFT-SR": True, + "CFT-P": False, }, "FastChat": { "Task": "MT", "Gen": "SI", "Lang": "EN", "Dataset": "FastChat", - "Multi-round Dialog": False, + "CFT-MR": False, "IFT": False, - "SFT": True, - "Preference": False, + "CFT-SR": True, + "CFT-P": False, }, 'Tabular-LLM-Data': { 'Task': 'MT', 'Gen': 'COL', 'Lang': 'EN/CN', "Dataset": "Tabular-LLM-Data", - "Multi-round Dialog": False, + "CFT-MR": False, "IFT": True, - "SFT": False, - "Preference": False, + "CFT-SR": False, + "CFT-P": False, }, 'ThoughtSource': { 'Task': 'MT', 'Gen': 'COL', 'Lang': 'EN', "Dataset": "ThoughtSource", - "Multi-round Dialog": False, + "CFT-MR": False, "IFT": True, - "SFT": False, - "Preference": False, + "CFT-SR": False, + "CFT-P": False, } }