Skip to content

Commit

Permalink
Meta information.
Browse files Browse the repository at this point in the history
  • Loading branch information
chokkan committed Jul 1, 2024
1 parent eb85b98 commit b3aef38
Show file tree
Hide file tree
Showing 13 changed files with 31 additions and 3 deletions.
1 change: 1 addition & 0 deletions _config.yml
Original file line number Diff line number Diff line change
Expand Up @@ -28,6 +28,7 @@ baseurl: "/evaluation" # the subpath of your site, e.g. /blog
url: "https://swallow-llm.github.io" # the base hostname & protocol for your site, e.g. http://example.com
twitter_username: jekyllrb
github_username: jekyll
cover_image: assets/cover_bar.png

# Build settings
theme: minima
Expand Down
4 changes: 4 additions & 0 deletions _data/ui.yml
Original file line number Diff line number Diff line change
@@ -1,4 +1,6 @@
en:
title: "Japanese LLM Evaluation"
description: This site visualizes the results of LLM evaluations conducted within the Swallow project, including bar graphs, radar charts, and scatter plots. We hope that this site will be useful not only as information for selecting the right LLM for your application, but also as reference information for the development of LLMs that are strong in Japanese.
site: "Japanese LLM Evaluation 🔗"
model: "Model"
type: "Type"
Expand Down Expand Up @@ -35,6 +37,8 @@ en:
reference: Reference

ja:
title: "日本語LLM評価"
description: このサイトでは、Swallowプロジェクト内で実施されたLLMの評価結果を棒グラフやレーダーチャート、散布図などで閲覧できます。用途にあったLLMを選択するための情報としてだけでなく、日本語に強いLLMの開発のための参考情報としてお役に立てると幸いです。
site: "日本語LLM評価 🔗"
model: "モデル"
type: "種別"
Expand Down
17 changes: 15 additions & 2 deletions _includes/head.html
Original file line number Diff line number Diff line change
@@ -1,9 +1,22 @@
{% assign ui = site.data.ui[page.lang] | default: site.data.ui.en %}

<meta charset="utf-8">
<meta name="viewport" content="width=device-width, initial-scale=1">
<meta name="description" content="">
<meta name="description" content="{{ ui.description }}">
<meta name="author" content="Naoaki Okazaki and Swallow project members">
<meta name="generator" content="Jekyll">
<title>Japanese LLM Evaluation</title>
<title>{{ ui.title }}{% if page.title %} - {{ page.title }}{% endif %}</title>

<!-- Twitter Card -->
<meta name="twitter:card" content="summary_large_image">
<meta name="twitter:title" content="{{ ui.title }}{% if page.title %} - {{ page.title }}{% endif %}">
<meta name="twitter:description" content="{{ ui.description }}">
<meta name="twitter:image:src" content="{{ page.cover_image | default: site.cover_image | absolute_url }}">

<!-- Facebook OpenGraph -->
<meta property="og:title" content="{{ ui.title }}{% if page.title %} - {{ page.title }}{% endif %}">
<meta property="og:description" content="{{ ui.description }}">
<meta property="og:image" content="{{ page.cover_image | default: site.cover_image | absolute_url }}">

<script src="https://getbootstrap.jp/docs/5.3/assets/js/color-modes.js"></script>

Expand Down
1 change: 1 addition & 0 deletions about.en.md
Original file line number Diff line number Diff line change
@@ -1,4 +1,5 @@
---
title: About evaluation
lang: en
layout: about

Expand Down
3 changes: 2 additions & 1 deletion about.ja.md
Original file line number Diff line number Diff line change
@@ -1,4 +1,5 @@
---
title: 評価について
lang: ja
layout: about

Expand Down Expand Up @@ -240,7 +241,7 @@ tools:

### 評価の実行環境が多様

Swallowプロジェクトでは、大規模言語モデルの評価のため、AI Bridging Clud Infrastructure (ABCI) のAノード(NVIDIA A100)の他、東京工業大学のTSUBAME 4.0 (NVIDIA H100)、岡崎研究室内の計算サーバ(NVIDIA RTX A6000)、横田研究室内の計算サーバ(NVIDIA ???)が使われています。まとまった大規模なGPU計算資源は大規模言語モデルの学習に割り当てることになりますので、モデルの評価は学習環境の予備ノードや、クラウド計算環境の通常利用枠、研究室内の計算資源などでやりくりをします。さらに、規模の異なる多数のモデルに対して、19~27個のタスクで評価を行いますので、評価実験は8名くらいの学生で分担しています。したがって、計算環境と評価者の掛け算で、20~30個の評価環境が使われることになります。
Swallowプロジェクトでは、大規模言語モデルの評価のため、AI Bridging Clud Infrastructure (ABCI) のAノード(NVIDIA A100)の他、東京工業大学のTSUBAME 4.0 (NVIDIA H100)、岡崎研究室内の計算サーバ(NVIDIA RTX A6000)、横田研究室内の計算サーバ(NVIDIA A100, RTX 6000 Ada, A6000など)が使われています。まとまった大規模なGPU計算資源は大規模言語モデルの学習に割り当てることになりますので、モデルの評価は学習環境の予備ノードや、クラウド計算環境の通常利用枠、研究室内の計算資源などでやりくりをします。さらに、規模の異なる多数のモデルに対して、19~27個のタスクで評価を行いますので、評価実験は8名くらいの学生で分担しています。したがって、計算環境と評価者の掛け算で、20~30個の評価環境が使われることになります。

### (J)HumanEvalの評価にdocker環境が必要

Expand Down
1 change: 1 addition & 0 deletions index.en.html
Original file line number Diff line number Diff line change
@@ -1,4 +1,5 @@
---
title: Overall
lang: en
layout: default
views:
Expand Down
1 change: 1 addition & 0 deletions index.ja.html
Original file line number Diff line number Diff line change
@@ -1,4 +1,5 @@
---
title: 総合
lang: ja
layout: default
views:
Expand Down
1 change: 1 addition & 0 deletions scatter.en.html
Original file line number Diff line number Diff line change
@@ -1,4 +1,5 @@
---
title: Scatter
lang: en
layout: default
views:
Expand Down
1 change: 1 addition & 0 deletions scatter.ja.html
Original file line number Diff line number Diff line change
@@ -1,4 +1,5 @@
---
title: 散布図
lang: ja
layout: default
views:
Expand Down
1 change: 1 addition & 0 deletions task-avg.en.html
Original file line number Diff line number Diff line change
@@ -1,4 +1,5 @@
---
title: Task+Overall
lang: en
layout: default
views:
Expand Down
1 change: 1 addition & 0 deletions task-avg.ja.html
Original file line number Diff line number Diff line change
@@ -1,4 +1,5 @@
---
title: タスク+総合
lang: ja
layout: default
views:
Expand Down
1 change: 1 addition & 0 deletions task.en.html
Original file line number Diff line number Diff line change
@@ -1,4 +1,5 @@
---
title: Task
lang: en
layout: default
views:
Expand Down
1 change: 1 addition & 0 deletions task.ja.html
Original file line number Diff line number Diff line change
@@ -1,4 +1,5 @@
---
title: タスク
lang: ja
layout: default
views:
Expand Down

0 comments on commit b3aef38

Please sign in to comment.