きままにNLP | Kimamani NLP

Vocabulary expansion for non-SentencePiece based BPE tokeniser

2024-06-24T00:00:00+00:00

Introduction

Since the advent of LLaMA2, additional training with target language data, i.e. continued pre-training, has been actively used to build an LLM for specific languages. The main effect of vocabulary expansion is to reduce overfragmentation¹, resulting in better inference efficiency.

The idea of vocabulary expansion itself is quite simple, but the way it is implemented depends on how the target tokeniser is implemented. In this post, I share the procedure for expanding the vocabulary of a non-SentencePiece based BPE tokeniser.²

Background

The main difference between SentencePiece-based (e.g. LLaMA2, Mistral) and non-SentencePiece based (e.g. LLaMA3, OLMo) BPE tokenisers is whether they are byte-level or not.

The former, SentencePiece-based BPE, often uses the byte-fallback option, preventing the occurrence of UNK tokens.

On the other hand, recent non-SentencePiece based BPE tokenisers are typically based on byte-level BPE, which converts the input to UTF-8 encoded byte sequences before tokenisation. Since tokenisation is performed on byte sequences, no UNK tokens are generated.³

Therefore, even if the same algorithm is used between the two, the pre- and post-processing of strings is slightly different. This difference can also be seen in the metadata of the transformers tokenisers, specifically the pre_tokenizer and decoder parts.

import json
from transformers import AutoTokenizer

# LLaMA2
tokenizer = AutoTokenizer.from_pretrained("meta-llama/Llama-2-7b-hf")
tokenizer_json = json.loads(tokenizer._tokenizer.to_str())
print(tokenizer_json["pre_tokenizer"])
# None
print(tokenizer_json["decoder"])
# {'type': 'Sequence', 'decoders': [{'type': 'Replace', 'pattern': {'String': '▁'}, 'content': ' '}, {'type': 'ByteFallback'}, {'type': 'Fuse'}, {'type': 'Strip', 'content': ' ', 'start': 1, 'stop': 0}]}

# LLaMA3
tokenizer = AutoTokenizer.from_pretrained("meta-llama/Meta-Llama-3-8B")
tokenizer_json = json.loads(tokenizer._tokenizer.to_str())
print(tokenizer_json["pre_tokenizer"])
# {'type': 'Sequence', 'pretokenizers': [{'type': 'Split', 'pattern': {'Regex': "(?i:'s|'t|'re|'ve|'m|'ll|'d)|[^\\r\\n\\p{L}\\p{N}]?\\p{L}+|\\p{N}{1,3}| ?[^\\s\\p{L}\\p{N}]+[\\r\\n]*|\\s*[\\r\\n]+|\\s+(?!\\S)|\\s+"}, 'behavior': 'Isolated', 'invert': False}, {'type': 'ByteLevel', 'add_prefix_space': False, 'trim_offsets': True, 'use_regex': False}]}
print(tokenizer_json["decoder"])
# {'type': 'ByteLevel', 'add_prefix_space': True, 'trim_offsets': True, 'use_regex': True}

Implementation

Here, we expand the vocabulary of a source tokeniser tokenizer with the help of an auxiliary tokeniser aux_tokenizer trained on a target language.

We use Greek as an example, where the effect of vocabulary expansion is relatively easy to see.

1. Load tokenisers and their metadata

First, we load the source tokeniser and auxiliary tokeniser, and get the merge rules and vocabulary of the target language.

In the example below, we use LLaMA3 as the source tokeniser and an auxiliary tokeniser trained on the Greek CC-100 subcorpus ($2^{20}$ sentences randomly sampled) with a vocabulary size of 50k tokens. The rest of the training settings are the same as LLaMA3.⁴

import json
import copy

from transformers import AutoTokenizer
from tokenizers.models import BPE

tokenizer = AutoTokenizer.from_pretrained("meta-llama/Meta-Llama-3-8B")
vocab = tokenizer.get_vocab()
tokenizer_json = json.loads(tokenizer._tokenizer.to_str())
merges = tokenizer_json["model"]["merges"]

aux_tokenizer = AutoTokenizer.from_pretrained("atsuki-yamaguchi/cc100-el-50k")
aux_tokenizer_json = json.loads(aux_tokenizer._tokenizer.to_str())
aux_merges = aux_tokenizer_json["model"]["merges"]

2. Expand vocabulary and merge rules

We then add new target tokens and the corresponding merge rules to the source tokeniser’s vocabulary and merge rule list. Here, we add up to 10k new tokens.⁵

# merge the tokenizers
num_new_token = 0
max_new_token = 10000
ret_vocab = copy.copy(vocab)
ret_merges = []
old_merges = copy.copy(merges)
for merge in aux_merges:
    # vocab
    token_1, token_2 = merge.split(" ")
    token = token_1 + token_2
    if num_new_token < max_new_token:
        if token_1 not in ret_vocab and token_2 not in ret_vocab: # both are new
            ret_vocab[token_1] = len(vocab) + num_new_token
            ret_vocab[token_2] = len(vocab) + num_new_token + 1
            num_new_token += 2
        elif token_1 not in ret_vocab and token_2 in ret_vocab: # new + existing
            ret_vocab[token_1] = len(vocab) + num_new_token
            num_new_token += 1
        elif token_1 in ret_vocab and token_2 not in ret_vocab: # old + existing
            ret_vocab[token_2] = len(vocab) + num_new_token
            num_new_token += 1
        else: # both are existing tokens
            pass
        if token not in ret_vocab:
            ret_vocab[token] = len(vocab) + num_new_token
            num_new_token += 1
    # merge
    if merge in merges:
        old_merges.remove(merge)
        ret_merges.append(merge)
    elif token in ret_vocab and token_1 in ret_vocab and token_2 in ret_vocab:
        ret_merges.append(merge)

3. Retrain BPE tokeniser

We create an instance of the BPE tokeniser with the expanded vocabulary and merge rules, and overwrite the source tokeniser with it.

# retrain tokenizer
merges = ret_merges + old_merges
vocab = ret_vocab
tokenizer.backend_tokenizer.model = BPE(
    vocab=vocab,
    merges=[(merge.split(' ')[0], merge.split(' ')[1]) for merge in merges],
    fuse_unk=False,
)

4. Save the tokeniser

Finally, we save the tokeniser to an output directory.

# save
tokenizer.save_pretrained("/path/to/output/dir")

Efficacy of vocabulary expansion

We measure the number of tokens before and after vocabulary expansion with the following example.

Μου είπαν ότι, θα έπρεπε να καλέσω έναν άντρα στο τέλος για να συναντηθούμε. Ερώτηση: Ο τύπος εμφανίστηκε λίγο αργά. Αληθές, Ψευδές, ή Κανένα από τα δύο; Απάντηση: Κανένα από τα δύο

tokenizer = AutoTokenizer.from_pretrained("meta-llama/Meta-Llama-3-8B")
modified_tokenizer = AutoTokenizer.from_pretrained("/path/to/output/dir")

text = "Μου είπαν ότι, θα έπρεπε να καλέσω έναν άντρα στο τέλος για να συναντηθούμε. Ερώτηση: Ο τύπος εμφανίστηκε λίγο αργά. Αληθές, Ψευδές, ή Κανένα από τα δύο; Απάντηση: Κανένα από τα δύο"

print(len(tokenizer.encode(text)))
# 81

print(len(modified_tokenizer.encode(text)))
# 46

As a result, the number of tokens was reduced by 35 by adding 10k target tokens to the vocabulary of the LLaMA3 tokeniser.

Summary

There are many examples of vocabulary expansion using SentencePiece-based BPE tokenisers, but I have not come across any practical examples of using non-SentencePiece-based tokenisers for vocabulary expansion. That’s why I decided to write a post about it. I hope this article is of some help.

Most LLMs are trained on English-centric data. Therefore, when encoding non-English language texts, the total number of tokens is likely to increase. For more information, see Ahia et al. (2023) and other references. ↩
For how to expand the vocabulary of a SentencePiece-based BPE tokeniser, see the explanation. ↩
For more details, see minbpe. ↩
It is convenient to use tokenizer.train_new_from_iterator() for training. ↩
The merge rules are sorted by token frequency (higher to lower), so you can add a new token in order of token frequency by processing the list sequentially. For more information, see the issue. ↩

Introduction

2024-06-23T00:00:00+00:00

About this blog

This blog covers topics related to machine learning and natural language processing.

You can find the list of all articles on the site map (tag list). Note that some articles are written in Japanese and not available in English.

Contact

For inquiries or job requests, please contact me via the contact form or DM on X (formerly Twitter).

Privacy policy and disclaimer

For the disclaimer and privacy policy of this site, please see the Privacy Policy.

非SentencePieceベースのBPEトークナイザを語彙拡張する

2024-06-20T00:00:00+00:00

はじめに

LLaMA2の登場以後、特定言語向けの言語モデル構築のため、語彙拡張を伴う英語モデルのターゲット言語のデータによる追加学習が盛んに行われています。

語彙拡張の目的はフラグメンテーション¹の改善にあり、これにより推論効率の改善が見込まれます。

語彙拡張のアイディア自体はシンプルですが、トークナイザの実装方法によってどのように拡張するかは変わってきます。本稿では、非SentencePieceベースのBPEトークナイザを語彙拡張する手順について共有します。（SentencePieceベースのBPEトークナイザを語彙拡張する方法については、SentencePieceのレポジトリ内に説明があります。）

前提

SentencePiece（LLaMA2やMistralなどが使用）と非SentencePieceベース（LLaMA3やOLMoなど）のBPEトークナイザの主な違いとして、byte-levelか否かが挙げられます。

SentencePiece系のBPEはbyte-fallbackオプションが適用されており、UNKトークン（=トークナイズできない）の発生を防いでいます。

他方、近年の非SentencePieceベースのBPEはbyte-level BPEとなっており、入力をUTF-8でエンコードされたバイト列に変換してからトークナイズを行っています。バイト列に対してトークナイズを行うので、UNKトークンは発生しません。²

したがって、同じアルゴリズムであっても、文字列の前処理・後処理が若干異なります。この違いは、実際にtransformersトークナイザのメタデータのうち、pre_tokenizerとdecoder部分からも確認できます。

import json
from transformers import AutoTokenizer

# LLaMA2
tokenizer = AutoTokenizer.from_pretrained("meta-llama/Llama-2-7b-hf")
tokenizer_json = json.loads(tokenizer._tokenizer.to_str())
print(tokenizer_json["pre_tokenizer"])
# None
print(tokenizer_json["decoder"])
# {'type': 'Sequence', 'decoders': [{'type': 'Replace', 'pattern': {'String': '▁'}, 'content': ' '}, {'type': 'ByteFallback'}, {'type': 'Fuse'}, {'type': 'Strip', 'content': ' ', 'start': 1, 'stop': 0}]}

# LLaMA3
tokenizer = AutoTokenizer.from_pretrained("meta-llama/Meta-Llama-3-8B")
tokenizer_json = json.loads(tokenizer._tokenizer.to_str())
print(tokenizer_json["pre_tokenizer"])
# {'type': 'Sequence', 'pretokenizers': [{'type': 'Split', 'pattern': {'Regex': "(?i:'s|'t|'re|'ve|'m|'ll|'d)|[^\\r\\n\\p{L}\\p{N}]?\\p{L}+|\\p{N}{1,3}| ?[^\\s\\p{L}\\p{N}]+[\\r\\n]*|\\s*[\\r\\n]+|\\s+(?!\\S)|\\s+"}, 'behavior': 'Isolated', 'invert': False}, {'type': 'ByteLevel', 'add_prefix_space': False, 'trim_offsets': True, 'use_regex': False}]}
print(tokenizer_json["decoder"])
# {'type': 'ByteLevel', 'add_prefix_space': True, 'trim_offsets': True, 'use_regex': True}

実装

はじめに、拡張元のトークナイザtokenizerとターゲットとなる言語で学習された補助のトークナイザaux_tokenizerを用意しておきます。

ここでは、比較的語彙拡張の効果が見られやすいギリシャ語を例に取ります。

1. 読み込み

拡張元のトークナイザとターゲット言語の補助トークナイザを読み込み、マージルールや語彙の辞書を取得します。

以下の例では、LLaMA3を拡張元のトークナイザとしています。補助のトークナイザは、語彙サイズを5万トークンとし、ギリシャ語のCC-100コーパスから無作為に$2^{20}$文を抽出したデータセットで学習させたものです。それ以外の学習設定はLLaMA3に準じています。³

import json
import copy

from transformers import AutoTokenizer
from tokenizers.models import BPE

tokenizer = AutoTokenizer.from_pretrained("meta-llama/Meta-Llama-3-8B")
vocab = tokenizer.get_vocab()
tokenizer_json = json.loads(tokenizer._tokenizer.to_str())
merges = tokenizer_json["model"]["merges"]

aux_tokenizer = AutoTokenizer.from_pretrained("atsuki-yamaguchi/cc100-el-50k")
aux_tokenizer_json = json.loads(aux_tokenizer._tokenizer.to_str())
aux_merges = aux_tokenizer_json["model"]["merges"]

2. 語彙とマージルールの追加

拡張元のトークナイザの語彙の辞書とマージルールのリストに、語彙と対応するマージルールを追加します。ここでは、1万個の新規語彙を最大値として追加します。⁴

# merge the tokenizers
num_new_token = 0
max_new_token = 10000
ret_vocab = copy.copy(vocab)
ret_merges = []
old_merges = copy.copy(merges)
for merge in aux_merges:
    # vocab
    token_1, token_2 = merge.split(" ")
    token = token_1 + token_2
    if num_new_token < max_new_token:
        if token_1 not in ret_vocab and token_2 not in ret_vocab: # both are new
            ret_vocab[token_1] = len(vocab) + num_new_token
            ret_vocab[token_2] = len(vocab) + num_new_token + 1
            num_new_token += 2
        elif token_1 not in ret_vocab and token_2 in ret_vocab: # new + existing
            ret_vocab[token_1] = len(vocab) + num_new_token
            num_new_token += 1
        elif token_1 in ret_vocab and token_2 not in ret_vocab: # old + existing
            ret_vocab[token_2] = len(vocab) + num_new_token
            num_new_token += 1
        else: # both are existing tokens
            pass
        if token not in ret_vocab:
            ret_vocab[token] = len(vocab) + num_new_token
            num_new_token += 1
    # merge
    if merge in merges:
        old_merges.remove(merge)
        ret_merges.append(merge)
    elif token in ret_vocab and token_1 in ret_vocab and token_2 in ret_vocab:
        ret_merges.append(merge)

3. トークナイザの再学習

拡張した語彙とマージルールを基に、BPEトークナイザのインスタンスを作成し、上書きします。

# retrain tokenizer
merges = ret_merges + old_merges
vocab = ret_vocab
tokenizer.backend_tokenizer.model = BPE(
    vocab=vocab,
    merges=[(merge.split(' ')[0], merge.split(' ')[1]) for merge in merges],
    fuse_unk=False,
)

4. 保存

最後に上書きしたトークナイザを保存して完了です。

# save
tokenizer.save_pretrained("/path/to/output/dir")

効果

下記の例文が語彙拡張前後のトークナイザで何トークンになるかを計測します。

Μου είπαν ότι, θα έπρεπε να καλέσω έναν άντρα στο τέλος για να συναντηθούμε. Ερώτηση: Ο τύπος εμφανίστηκε λίγο αργά. Αληθές, Ψευδές, ή Κανένα από τα δύο; Απάντηση: Κανένα από τα δύο

tokenizer = AutoTokenizer.from_pretrained("meta-llama/Meta-Llama-3-8B")
modified_tokenizer = AutoTokenizer.from_pretrained("/path/to/output/dir")

text = "Μου είπαν ότι, θα έπρεπε να καλέσω έναν άντρα στο τέλος για να συναντηθούμε. Ερώτηση: Ο τύπος εμφανίστηκε λίγο αργά. Αληθές, Ψευδές, ή Κανένα από τα δύο; Απάντηση: Κανένα από τα δύο"

print(len(tokenizer.encode(text)))
# 81

print(len(modified_tokenizer.encode(text)))
# 46

結果として1万トークンをLLaMA3トークナイザに新規に追加することで、35トークン減少しました。

おわりに

SentencePieceベースのBPEトークナイザの語彙拡張の例はたくさん見かけますが、それ以外の実践例をあまり見かけたことがなかったので今回の記事作成に至りました。何かの役に立てば幸いです。

ほとんどの大規模言語モデルは英語データを中心に学習されているため、サポート外の言語を使用する際にトークン数が増加してしまう事象が報告されている。詳しくは、Ahia et al. (2023)などを参照されたい。 ↩
詳しくは、minbpeを参照されたい。 ↩
学習にはtokenizer.train_new_from_iterator()を使うのが便利です。 ↩
マージルールはトークンの出現頻度順にソートされているため、リストを順繰りに処理することによりトークンの頻度順に語彙を追加できます。詳しくは、transformersのissue等を確認してください。 ↩

VS Code [Remote SSH] を古いLinuxで使う

2024-02-01T00:00:00+00:00

2024/02/19 追記: 最低システム要件に満たないOSであっても時限的措置で再び接続できるようになりました。一年程度は使用可能とのことですが、それ以降は再び接続不可になるはずですので、以下はその対策として残しておきます。

VS Code release 1.86 から最低システム要件が変更になった影響で、非対応となったOS（例：CentOS 7、Ubuntu 18.04）を搭載しているサーバへの接続が不可になりました。とはいえ、システム管理者でもない限り接続先サーバのアップデートは困難なので、クライアント側での対処手順を備忘録程度にまとめておきます。

前提

macOS Apple Silicon

手順

1. VS Code 1.85 のダウンロード

Apple Siliconなら以下からダウンロードできます。

VSCode-darwin-arm64.zip

2. 適当な場所で解凍

私は $HOME/Applications 以下に配置しました。

3. Portable Mode の有効化

現行の環境と共存させるための作業を行います。

Visual Studio Code.app が配置されているディレクトリに code-portable-data を作成
```
cd $HOME/Applications
mkdir code-portable-data
```

アプリの検疫状態を解除

xattr -dr com.apple.quarantine Visual\ Studio\ Code.app

アプリ起動後、左下歯車⚙️アイコンをクリック→検索欄に”update”と入力
アップデート関連の項目を軒並みオフに設定

4. Remote SSH をインストール

空っぽの状態なので、再びRemote SSHをインストール & その他環境を整えて完了です。

参考

Hugging Face TransformersのHfArgumentParserとargparse.ArgumentParserを併用する

2023-11-03T00:00:00+00:00

個人的に少し困ったので、同様の悩みを抱える人の助けになればと思い、共有します。

状況

Transformersを使わないコードを書いていたのに途中で使うこととなり、Trainerを使いたくなった。
既にargparse.ArgumentParserを使ってコマンドライン引数を受け取るようにしていた。
Trainerに渡す引数はTrainingArgumentsで管理し、わざわざargparse.ArgumentParserに引数を追加するようなことはしたくない。

対処方法

下記のように、argparse.ArgumentParserを継承したCustomArgumentParserを定義し、parse_args()内でargs, extras = self.parser.parse_known_args()を呼ぶ所がキモです。

extrasにself.parserに定義されていない引数のリストが格納されているので、これをself.hf_parserに渡せば万事解決となります。

import argparse
from transformers import HfArgumentParser, TrainingArguments

class CustomArgumentParser(argparse.ArgumentParser):
    def __init__(self):
        self.parser = argparse.ArgumentParser()
        self.hf_parser = HfArgumentParser(TrainingArguments)

        # Define any custom arguments using argparse
        self.parser.add_argument(
            "--dataset_path",
            type=str,
            required=True,
            help="Path to the dataset."
        )
        self.parser.add_argument(
            "--tokenizer_name_or_path", 
            type=str, 
            required=True,
            help="Path to the tokenizer."
        )
        self.parser.add_argument(
            "--model_name_or_path", 
            type=str, 
            required=True,
            help="Path to the model."
        )
        self.parser.add_argument(
            "--cache_dir", 
            type=str, 
            default=None,
            help="Path to the cache directory."
        )

    def parse_args(self):
        args, extras = self.parser.parse_known_args()
        training_args = self.hf_parser.parse_args_into_dataclasses(extras)[0]
        return args, training_args

英語論文を書くときに気をつけていること

2021-02-21T00:00:00+00:00

Version: 0.2 (最終更新日：2022/05/04)

免責事項
本稿は他の記事と同じく個人的な経験・分析を基に執筆されています．本稿の記載内容を参考に執筆された学会論文やDissertation，レポート等の文法のミスが指摘されても一切の責任を負いかねます．くれぐれも自己責任でご利用ください．

1. 論文中での時制

分野によってかなりしきたりが異なります．本稿で想定しているのは自然言語処理や機械学習系の論文です．

Abstract

少なくとも機械学習や自然言語処理分野では「現在形」で書かれることが多い．

先行研究がやったことは「過去形」
「最近やられたぞ」ということを強調したいときは現在完了も使う．（イギリスではアメリカよりも何かにつけて現在完了を使うことが多いように感じます．）

Problem Settings / Proposed Method / Methodology

問題設定とかは「現在形」提案手法の説明も「現在形」

Experimental Setup

実験設定・操作の説明は過去形で書く．　　

Experiments / Discussion

実験結果の数値等について述べるとき：「現在形」か「過去形」
例：The accuracy of the proposed method is/was significantly higher…

過去形を使う派と現在形を使う派の二通りの流儀があるように思います．おそらく前者は実験は過去に行われたものなので，その得られた結果も過去のものという認識で過去形にしているのだと思います．後者は実験手順には再現性があるので，その操作を行うと論文に記載の結果が必ず得られるという説明の意味で現在形にしているのだと思います．いずれにせよどちらかに統一して書くのが無難だと思います．
実験結果の原因・理由等の分析：「現在形」
例： We suppose / assume that (考察)

論文中の”その場”で分析している体なので現在形で書くものと思われます．
実験結果自体を述べるとき：「現在形」
例： Figure 1 illustrates / shows /…

説明文なので現在形になります．

Conclusion

論文を書き出す前の出来事（先行研究等）：過去形
論文中で取り組んだこと（結果の分析等）：現在完了形や場合によっては過去形
例： we have introduced ~~~

なお現在完了形が作るthat節の中は時制の一致を引き起こしません．

2. 細かい記法

強調

単に強調するだけならダブルコーテーションよりもイタリック（斜体）にしておくのが無難です．

セミコロン

文中のセミコロン「:」は強調や言い換えの意味で使われます．

時制の一致

時制の一致は従属節に適応されます．なので”that S + V”のような典型的なケースだけでなく，一応関係代名詞等も含まれます．

3. 冠詞周り

“both” の用法

冠詞をつけても問題はありませんが，大抵の場合は省略されます．ちなみに順番は，both + (冠詞) + 名詞です．

“all” の用法

all + 冠詞 + 名詞の順番です．

省略語の冠詞

時と場合によるので，冠詞をつける場合とつけない場合でググってヒット件数の比較をすることをお勧めしますが，基本的なルールは下記の通りです．

一つの単語として発音するものには冠詞は不要
例：COVID-19
アルファベットで発音するものには冠詞をつける
例：TPP (Trans-Pacific Partnership)

どこに冠詞をつけるか？

二つの異なるものを並べるとき：両方に冠詞
二つで一つのものを並べるとき：先頭に冠詞

図表のキャプション

冠詞を省略する，telegraphicに書く流派があるように思います．したがって，投稿する学会の傾向に合わせて冠詞を省略するか決めると良いでしょう．

4. 小ネタ等

Spelling

イギリスで学位論文等を執筆する際はくれぐれもイギリス英語で書くようにしましょう．アメリカ英語で書くと査読する方の心象を損ねる可能性があります．

言い回しの正確性

基本的にネイティブでない人がどれだけ言い回しが自然かどうかを自分で判断する術は，ググる意外に手段がないと思います．気になる言い回しが出たら，ダブルコーテーションで囲って検索にかけましょう．

Rebuttalの心構え

“Courtesy”を常に忘れないで対応する．

参考：COLING 2018 - PC chairs report back: On the effectiveness of author response

不均衡データの分析

2020-06-06T00:00:00+00:00

はじめに

機械学習を使った研究や実応用で避けて通れないのが、不均衡なデータセットを扱うことです．具体例としては，機械学習全般で言えば異常検知や，自然言語処理分野ではフェイクニュースの検知，音声処理分野では音声区間検出等，数え始めたらキリのないほどありそうな気がしてきます．

不均衡データを用いて機械学習モデルを学習させること自体は，通常の均衡データを用いるときとほぼ変わりない手順で実行できると思います．問題は「分析」です．モデルの学習がうまくいっているか，学習させたモデルが検証用データ・テストデータに対して有効であるかどうか，この二つをどのように確認するかが不均衡データを扱うときの鍵になってきます．そこで本稿の前半部分では，よく論文等で目にするメジャーな評価手法を掻い摘んで紹介します．後半部分では，不均衡データを扱う分類問題に実際に取り組み，その結果を前半部分で扱う評価手法に基づいて評価・分析することで，各指標についての理解を深めることを目指します．

1. 数値で評価

定量的な数値で評価するパターンとしては，精度 (Accuracy)・適合率 (Precision)・再現率 (Recall)・F1値が代表的なものとして挙げられます．それに付随して，混同行列 (Confusion matrix) が用いられる場合もあります．何度も目にするこれらの評価指標ですが，念のため以下で定義とともに抑えておきます．

1.1　Accuracy

Accuracy は精度（正解した割合）なので，正解した数を全体数で割ることで求められます．

\begin{equation} \mathrm{Accuracy} = \frac{TP + TN}{TP + FP + TN + FN} \tag{1} \end{equation}

TP・TN・FP・FN の説明も以下に載せておきます．

TP (True Positive)
予測結果も正解データもともに Positive なラベルが付与されているサンプル数
TN (True Negative)
予測結果も正解データもともに Negative なラベルが付与されているサンプル数
FP (False Positive)
正解データでは Negative と付与されているものの，予測結果は Positive であったサンプル数．FA (False Alarm) と呼ばれることもあります．
FN (False Negative)
正解データでは Positive と付与されているものの，予測結果が Negative であったサンプル数．Miss と呼ばれることもあります．

　Accuracy の問題点

後ほど実験でも確認しますが，Accuracy は不均衡データの分析には向いていません．というのも，データセットのラベル分布が偏っていると，分子の正解数が多数を占めるクラスの影響を強く受けてしまうため，評価値が良くなってしまう傾向にあるからです．例えば，データセットのうち 80% が Positive で， 20% が Negative なラベルを持つとき，常に Positive を返す分類器の精度は 80% になります．一見すると，それなりに良いスコアに見えてしまいますね．

1.2　Precision

Precision は予測結果が Positive であったデータのうち，どの程度のデータが本当に Positive であるかを示す指標です．

\begin{equation} \mathrm{Precision} = \frac{TP}{TP + FP} \tag{2} \end{equation}

1.3　Recall

Recall は Positive なラベルを持つ正解データのうち，どの程度モデルが Positive と判定できたかを示す指標です．True Positive Rate (TPR) とも呼ばれます．

\begin{equation} \mathrm{Recall} = \frac{TP}{TP + FN} \tag{3} \end{equation}

1.4　F1値

F1値は Precision と Recall の調和平均 (harmonic mean) で求められます．Precision と Recall はトレードオフの関係にあると言われているので，その二つの調和平均を取ることで統一的にモデルの性能を評価しようという指標です．

\begin{equation} F_1 = 2 \times \frac{\mathrm{Precision} \times \mathrm{Recall}}{\mathrm{Precision} + \mathrm{Recall}} \tag{4} \end{equation}

F値には，$F_\beta$ という重みつきの派生版もありますが，ここでは扱いません．

1.5　Confusion Matrix

混同行列（Confusion Matrix）は，上述の TP・TN・FP・FN の4つの分類を表を使ってわかりやすく表現したものです．実際には表ではなくヒートマップが使われることがほとんどかと思います．混同行列の数値の見せ方には二通りあり，「サンプル数をそのまま表示するパターン」と，「TP と FN，TN と FP の組ごとに正規化をして表示するパターン」があります．どちらを使うかは，タスク次第といった所でしょうか．なお，以下の実験では両方とも出力しています．

2. 曲線の形状や面積で評価

続いて，曲線の形状やその曲線の作る面積の大きさで評価するパターンの紹介に移ります．代表的な指標としては，受信者動作特性曲線（Receiver Operating Characteristic Curve）と，Precision-Recall 曲線，Detection Error Tradeoff 曲線の3つがあります．

2.1　Receiver Operating Characteristic Curve

受信者動作特性曲線（ROC曲線）は，横軸に False Positive Ratio (FPR): $\frac{FP}{TN + FP}$ をとり，縦軸に True Positive Ratio (TPR): $\frac{TP}{TP + FN}$ をとる曲線です．予測結果が Positive か Negative かどうかを判断する閾値 (threshold) を $[0, 1]$ の範囲で少しずつずらして，各閾値における FPR と TPR を求めることで描画できます．ここで，閾値よりも大きい値を持つ予測結果は Positive とみなし，小さい値を持つ予測結果は Negative とみなします．

閾値が 0 に近いときは，ほとんどの予測結果が Positive であると判断されるので，TP と FP が大きくなり，TPR と FPR ともに 1 に近づきます．一方で，閾値が 1 に近いときは，ほとんどの予測結果が Negative であると判断されるので，TP と FP が小さくなり，TPR と FPR は 0 に近づきます．

閾値の範囲は，$[0, 1]$ に限りませんが，深層学習においてはシグモイド関数やソフトマックス関数を出力の関数として使うことが多く，これらの関数の値域は $(0, 1)$ であることから，ここでは $[0, 1]$ としています．

　Area Under Curve

ROC曲線と FPR (横軸) で囲まれた部分の面積を Are Under Curve (AUC) と言い，モデルの良し悪しを評価するのに用いられます．AUC の最大値は 1 で最小値は 0.5 になります．AUC は 1 に近づけば近づくほど良く，0.5 はランダム分類を意味します．

　ROC-AUC の注意点

ROC曲線はモデルがベースライン（ランダム分類）よりも有意に分類ができているかどうかを直感的に確認するのに適していますが，次に紹介する Precision-Recall 曲線 (PR曲線)よりも不均衡データへの反応が鈍い傾向にあります．つまり，あまり正確に分類できなかったケースでも，AUC がそれなりに大きくなることがあります．この場合，モデル間比較が難しくなってしまうので，PR-AUC も併用した方が良いです．

図：ROC曲線の例

2.2　Precision-Recall Curve

Precision-Recall Curve (PR曲線) は，横軸に Recall を取り，縦軸に Precision をとった曲線です．描画の手順はROC曲線と全く同じです．閾値が 0 に近いと FN の数が減り，TP と FP の数が増加するので，Precision はノイズ (FP) が増えるため悪化し，Recall はノイズ (FN) が減るので改善します．他方，閾値が 1 に近づくと FP は小さくなり，FN が大きくなることから，Precision は改善し，Recall は悪化します．

　Area Under Curve

ROC曲線と同様に曲線の作り出す面積が1に近いほど良いモデルと言えます．ただし下限は 0.5 ではなく，0です．なお実験では AUC の計算に，Average Precision (AP) を活用しています．

参考: （AP - Wikipedia）

図：PR曲線の例

2.3　Detection Error Tradeoff Curve

Detection Error Tradeoff Curve (DET曲線) は，どの程度モデルが誤検知・未検知したかを分析するのに向いている指標です．若干マイナーな曲線ですが，音声処理等の分野で活用されています．DET曲線は横軸に False Positive Rate (FPR): $\frac{FP}{TN + FP}$ をとり，縦軸に False Negative Rate (FNR): $\frac{FN}{TP + FN}$ を取ります．FPR は False Alarm Rate (FAR) とも呼ばれ，FNR は Miss Rate と表記されていることもあります．なお描画の仕方は上述の2曲線と同じく，閾値を少しずつずらして対応する FPR と FNR をプロットしていく形です．

誤検出率：FPR も，未検出率：FNR もできる限り小さくするのが目標となるので，DET曲線は原点に近づけば近づくほど良い傾向であるといえます．

　Equal Error Rate

Equal Error Rate (EER) は，FPR と FNR が等しくなる点 (値) を指します．EER は小さければ小さいほど良いモデルであると言える指標です．

誤検出も未検出も同程度重要視している場合には，EER に対応する閾値をモデルの閾値として使うという手もありかもしれません．しかし DET曲線と， EER はデータの偏りを考慮していないので，不均衡データを扱う際にEERをベースに閾値を決めるのは注意が必要です．この場合，FPR と FNR の各重要度を考慮したコスト関数を設定すれば，ベストな閾値を求めることができると思います．

もしそのまま EER から逆算した閾値を使うと，Precision か Recall のいずれかが極端に良くなり，もう片方が極端に悪くなるという現象が発生すると予想されます．

図：DET曲線の例（赤点は EER）

3. 簡単に実験してみる

一通り評価指標を見てきたところで，簡単な分類問題を扱って各指標の見え方の違いについて確認していきます．

3.1　問題設定

今回は MNIST データセットを活用して，入力画像（数字）が偶数か奇数かを判定するタスクに取り組みます．前処理としてデータセットに付与されているラベル (0-9) を偶数奇数（偶数: 1，奇数: 0）に張り替え，わざと偶数ラベルを持つデータを減らすことで不均衡データセットに仕立て上げます．

3.2　モデル

モデルは隠れ層を2層（256・128次元）持つ，シンプルな順伝播型ニューラルネット (FFNN) にしました．実装には，PyTorch をメインで使い，評価指標等の計算には一部 scikit-learn を使っています．実装は，GitHub にて公開してあります．

　損失関数に重み付け

単に不均衡データセットを分類する Toy Problem だと面白味に欠けるので，Binary cross-entropy loss の Positive クラスに対応する項に重み付けをして，その振る舞いを実験で観察することにします．具体的には次の式(5)のような損失関数になります．

\begin{equation} \mathcal{L}_{\rm WBCE} = - \frac{1}{N} \sum_i^{N} w_{\rm pos}y_i \log (p(x_i)) + (1 - y_i) \log (1 - p(x_i)) \tag{5} \end{equation}

$N$: サンプル数，$y_i$: $i$ 番目のサンプルの正解ラベル，$x_i$: $i$ 番目のサンプルの入力データ，$p(x_i)$: 入力データ $x_i$ がモデルによって Positive であると判断される確率 (= シグモイド関数の出力)，$w_{\rm pos}$: Positive クラスの重み．

重み $w_{\rm pos}$ は，Negative ラベルを持つデータ数 $n_{\rm neg}$ を Positive ラベルを持つデータ数 $n_{\rm pos}$ で割った値: $\frac{n_{\rm neg}}{n_{\rm pos}}$ として求められます．

今回のタスクの場合，重み付けがない状態だと，偶数データの分類にミスをしてもデータ数が少ないため，損失関数にそこまで大きな影響を及ぼしません．一方で重み付けをした状態で偶数データの分類にミスをすると，奇数データの分類にミスをしたときよりも大きなペナルティを被るので，モデルが不均衡データの性質をより意識できるようになると期待されます．

3.3　実験結果

実験結果は，均衡状態での結果，不均衡状態での結果，不均衡状態で損失関数に重み付けを行ったときの結果の3つに分けて紹介します．

　偶数データ減量前

均衡状態での MNIST データセットを使った偶数奇数の分類性能は，次の表のようになりました．軒並み良い数値を出しているのを見ると，簡単なタスクだったようです．

表：均衡状態での MNIST データセットの偶数・奇数分類結果

データ	Accuracy	Precision	Recall	F1	AUC	AP	EER
Validation	0.983	0.986	0.980	0.983	0.998	0.997	0.016
Test	0.987	0.989	0.984	0.986	0.998	0.998	0.014

　偶数データ95%減量後

続いて偶数ラベルを持つデータを元の5%まで減らしたときの結果を見ていきます．比較用に訓練用データのラベル分布に基づいてランダムに分類を行う分類器の結果を Random として載せました．

表：不均衡状態での MNIST データセットの偶数・奇数分類結果

データ / モデル	Accuracy	Precision	Recall	F1	AUC	AP	EER
Validation	0.985	0.946	0.719	0.817	0.996	0.933	0.024
Test	0.988	0.955	0.780	0.859	0.996	0.958	0.020
Random	0.915	0.056	0.053	0.054	0.505	0.047	NA

偶数データの減量前の結果と比較すると主に次の3点が読み取れます．

Accuracy と AUC があまり変化していない．
これは評価指標の説明時に紹介した傾向がそのまま現れたものです．Accuracy と AUC は，多数派を占める Negative（奇数）ラベルを持つデータの分類結果に強く影響されがちなので，奇数データの分類が上手く行っていればそれなりに高いスコアがでてしまいます．特に Accuracy はランダム分類でも 0.915 とかなり高いスコアが出てしまっています．
減量後の Recall と F1 が悪化している．
混同行列 (Confusion Matrix) を見ればわかりやすいのですが，この実験では，偶数ラベルを持つデータの分類にかなり失敗しています．（28% の偶数データが誤分類されています．）そのため，偶数ラベルが付与されているデータの正解率を示す，Recall の値も悪化したと考えられます．また F1 は Precision と Recall の調和平均なので，どちらかが悪化するとそれに伴って悪化します．

図：検証用データを用いたときの混同行列

減量後の AP と EER に悪化の傾向が見られる．
ROC-AUC とは異なり，AP は Recall の大幅な悪化を見逃さず，きちんと数値に反映しています．EER についても，0.6% から 0.8% 程度の悪化が見られます．

　損失関数に重み付け後

最後に損失関数を式(5)に置き換えたときの分類結果を見ていきます．明らかな違いとしては，Precision が悪化した代わりに，Recall が大幅に改善したことが挙げられます．ただし，その他の指標は同程度か若干悪化しています．したがって，モデルが偶数ラベルを持つデータをより意識できるようになったものの，その分ノイズ (誤検出) が増えてしまったと言えます．

更に言えば，閾値を調整すれば損失関数に重み付けをしなくても類似の結果を再現することができると思われるので，果たしてこのタスクにおいて損失関数への重み付けに意味があるのかどうかは謎です．

表：不均衡状態での MNIST データセットの偶数・奇数分類結果
（損失関数に重み付けあり）

データ	Accuracy	Precision	Recall	F1	AUC	AP	EER
Validation	0.985	0.781	0.942	0.854	0.996	0.938	0.024
Test	0.983	0.777	0.890	0.830	0.991	0.914	0.049

図：検証用データを用いたときの混同行列（損失関数に重み付けあり）

まとめ

本稿では種々の評価指標について一通り確認し，簡単な分類問題を通して各指標の振る舞いの違いを観察しました．実装は GitHub にて公開してあります．お気軽にご利用ください．

チェックポイントのセーブは行わない仕様になっているので，研究等に活用する際はくれぐれもご注意ください．

論文メモ：Grounding Strategic Conversation

2020-01-24T00:00:00+00:00

文献情報

著者: Cadilhac et al.
所属: IRIT Univ. Toulouse
出典: EMNLP 2013 (https://www.aclweb.org/anthology/D13-1035/

どんなもの？

交渉ゲームにおいてプレイヤーの行動を予測する手法を提案した論文であり，「Settlers of Catan ゲーム」の交渉ログをアノテーションしたデータを構築して検証を行った．

先行研究と比べてどこがすごい？

アノテーション粒度が既存研究よりも細かい
単に Accept や Reject だけをアノテーションするのではなく，dialogue act にどのような物品をやりとりしたかを示す属性： Resource を設けている．
交渉対話のアノテーションについておそらく初めて扱った論文
なお，論文からだけではデータが公開されているかどうかは不明．

技術や手法のキモはどこ？

データセット

3つのフェーズに分けてアノテーションした．コーパスの規模は 511 dialogues と各交渉ログの長さを勘案すると若干少なめ．　　

交渉ダイアログを「ターン：EDU」に分割
各ターンを Elementary Discourse Unit（EDU）と呼ばれる単位に分割する．EDU には発言者が予め付与される．
Dialogue Act Annotation
交渉対話なので，Dialogue Act は “offer, counter offer, accept, refusal” に加えて， “other” からなる．各EDUごとに Dialogue Act のアノテーションがされている．

other は交渉とはあまり関係のない行動について付与するもの．
Dialogue Act については，SLP3 の26章を参照するとよい．
Resource Type Annotation
各EDUに付与した Dialogue Act の具体的な内容をアノテーションしており，交渉でやり取りする物品についての内容と取引の属性をまとめている．具体的には，Givable・Not Givable・Receivable・Not Receivable の4つがある．

カタンゲームが多者間交渉であることから，取引先の関係性を明示するため（照応解析）に Anaphora Link という属性もアノテーション対象に含まれている．

以上のフェーズを考慮してアノテーションを行った結果が以下の表となっている．

図引用: https://www.aclweb.org/anthology/D13-1035/

手法（Dialogue Act Prediction & Resource Prediction）

Dialogue act と resource の予測は3つのフェーズごとにモデリングした．

第1フェーズ

Dialogue Act の特定を行う．

あるEDUはそれより前のEDUと依存関係がある：（例）Accept や Reject は Offer や Counter Offer のあとに続くことが多い．
→ 系列ラベリングとして考えられるので， Conditional Random Field (CRF) が Dialogue Act の特定に使えるという仮説．

第2フェーズ

Resource の範囲を特定する．

交渉の最中にやりとりした物品の内容を特定するために必要なフェーズ．単一カテゴリの交渉であるためやり取りする内容が決まっていることから，予め決めた辞書に語句が含まれているかどうかだけを検知する．

第3フェーズ

Resource の属性を特定する．（つまり前述の Givable・Not Givable・Receivable・Not Receivable を CRF を使って推定．）

手法（Predicting Player’s Strategic Actions）　　

プレーヤーの行動の予測には CP-net を活用した．CP-net はグラフィカルモデルの一種．

どうやって有効だと検証した？

F値（マクロ平均）と精度が主に使われている．CP-netについては，混同行列の値も求めている．

議論はある？

基本的に各手法はベースラインとして比較されている手法を上回っている．

実装とともに学ぶハイパーパラメータチューニングのお話

2019-08-15T00:00:00+00:00

はじめに

前回は交差検証について紹介をしました。今回は、ゼロからKerasシリーズの総まとめとして、ハイパーパラメータチューニングについて紹介します。実装例としては、Keras Tuner と呼ばれる、Keras用のハイパーパラメータ自動最適化ツールを活用した実装を紹介します。

1. ハイパーパラメータとは

ハイパーパラメータとは、最適化アルゴリズムによって最適化できないパラメータのことを指します。例えば、学習エポック数やバッチサイズ・隠れ層の次元数、学習率などがあたります。

最適化アルゴリズムでは最適化できないハイパーパラメータを最適化するには、人手ではなく、専用のツールを使うのが便利です。専用のツールはたくさん種類があるので、フレームワーク等の状況に応じたものを取捨選択すると良いです。

2. 実装

例によって、画像データセット: CIFAR10 の分類実験を題材にハイパーパラメータチューニングを実施してみます。基にするソースコードは前回の交差検証で用いた、cnn.py とします。冒頭で述べたように、Keras Tuner を活用して実装を行います。

参照: （GitHub: cnn.py）

2.1 Keras Tunerについて

Keras Tuner は、その名の通り Keras 用に開発中のハイパーパラメータ最適化ツールです。現時点で対応している最適化手法は、「ランダムサーチ」と Hyperband になります。今回はランダムサーチを適用してチューニングを行います。ランダムサーチは決められた範囲内からパラメータをランダムに選択し、試していく手法です。

なお、Keras Tuner は、TensorFlow 2.0 以降のTensorFlowに統合されたKeras (tf.keras) に対応していることが明記されているので、これまで本ブログで扱ってきたいわゆる無印Keras とは少し異なります。そのため、本記事では、無印Kerasユーザの方でも、tf.keras を使って最低限動かせるような構成にしてあります。

参照: （GitHub: Keras Tuner）

2.2 Keras Tunerのインストール

まずは、Keras Tunerをインストールします。Python 3.6〜と TensorFlow 2.0 が Requirementsとして指定されています。

git clone https://github.com/keras-team/keras-tuner.git
cd keras-tuner
pip install .

2.3 CNNモデルの実装

これまで活用してきた、cnn.py は tf.keras に互換性がないので、tf.keras 向けに書き換えます。

2.3.1 ライブラリ読み出し

ライブラリ読み出し部分は至って簡単に移植できます。今までのソースコードに、tensorflow. を追加するだけです。

from tensorflow.keras import Model
from tensorflow.keras.layers import Input, Dense, Flatten
from tensorflow.keras.layers import Conv2D, MaxPooling2D
from tensorflow.keras.optimizers import Adam
from tensorflow.keras.datasets import cifar10
from tensorflow.keras.utils import to_categorical
import numpy as np

Keras Tuner のライブラリも読み込ませます。

from kerastuner.tuners import RandomSearch

2.3.2 モデルの定義

モデルの定義部分は、Keras Tuner 向けに書き換える必要が出てきます。具体的には、次の2点について改造を施します。

引数に hp : ハイパーパラメータを取らせる
チューニングしたいハイパーパラメータの部分を、hp.Range に置き換える。

hp.Range の使い方は次の表の通りです。

引数	説明
`min_value`	チューニングしたいパラメータの最小値を指定します。
`max_value`	チューニングしたいパラメータの最大値を指定します。
`step`	インクリメントしていく値(幅)を指定します。

以下が、Keras Tunerに対応させたソースコードとなります。

def build_model(hp) -> Model:
    # モデル定義
    _input = Input(shape=(32, 32, 3))
    _hidden = Conv2D(filters=hp.Range('filters', min_value=10, 
                    max_value=40, step=10), 
                    kernel_size=hp.Range('kernel_size', min_value=2,
                    max_value=5, step=1), 
                    strides=(1, 1), padding='valid', activation='relu')(_input)
    _hidden = MaxPooling2D(pool_size=(2, 2))(_hidden)
    _hidden = Flatten()(_hidden)
    _hidden = Dense(units=hp.Range('units', min_value=50,
                    max_value=200, step=50), 
                    activation='relu')(_hidden)
    _output = Dense(10, activation='softmax')(_hidden)
    model = Model(_input, _output)
    model.compile(optimizer=Adam(hp.Choice('learning_rate', values=[1e-2, 1e-3, 1e-4])),
        loss='categorical_crossentropy', metrics=['accuracy'])

    return model

2.3.3 データの読み込み

データセットの読み込み部は一切変更する必要はありません。無印のKeras用に実装したソースコードをそのまま活用できます。

(x_train, y_train), (x_test, y_test) = cifar10.load_data()
x_train = x_train.astype('float') / 255.
x_test = x_test.astype('float') / 255.
y_train = to_categorical(y_train, num_classes=10)
y_test = to_categorical(y_test, num_classes=10)

2.3.4 RandomSearchクラスのインスタンス生成

ここからが本題になります。まずは、ランダムサーチを行うためのインスタンス tuner を生成します。

tuner = RandomSearch(build_model, objective='val_accuracy',
        max_trials=5, executions_per_trial=1, directory='tuning', project_name='log')

RandomSearch クラスの主な引数は次の表の通りです。

引数	説明
`hypermodel`	`HyperModel` クラスのインスタンスか、ハイパーパラメータを引数にとる、`Model` インスタンスを返す関数を与えます。
`objective`	何を基準に最適化を行うかを指定します。
`max_trials`	最大何回探索を行うかを指定します。
`executions_per_trial`	一回の探索で何回学習を繰り返すかを指定できます。複数回指定すると、結果を安定させる効果があります。
`directory`	ログの保存先ディレクトリを指定します。
`project_name`	ログの保存先ディレクトリ2を指定します。つまり、`directory`/`project_name`下にログファイルが保存されます。

2.3.4 ランダムサーチの実行

RandomSearch クラスのインスタンスを生成したら、ランダムサーチを実行できます。その前に、search_space_summary()メソッドを使って、探索候補を確認することができます。

tuner.search_space_summary()

実行結果：

[Search space summary]
 |-Default search space size: 4
 > filters (Range)
 |-default: None
 |-max_value: 40
 |-min_value: 10
 |-step: 10
 > kernel_size (Range)
 |-default: None
 |-max_value: 5
 |-min_value: 2
 |-step: 1
 > units (Range)
 |-default: None
 |-max_value: 200
 |-min_value: 50
 |-step: 50
 > learning_rate (Choice)
 |-default: 0.01
 |-values: [0.01, 0.001, 0.0001]

探索候補の範囲が定義した通りに表示されていますね。

では、本題の探索に移っていきましょう。探索は、search() メソッドを使います。このメソッドは、model.fit()に対応しています。

tuner.search(x_train, y_train, epochs=10, validation_data=(x_test, y_test))

2.3.5 チューニング結果の確認

チューニングの結果は、results_summary() で確認できます。

tuner.results_summary()

実行結果：

[Results summary]
 |-Results in tuning/log
 |-Ran 5 trials
 |-Ran 5 executions (1 per trial)
 |-Best val_accuracy: 0.6094

実行結果から、最高精度を記録したパラメータの設定は下記の設定のときでした。
今回は5回しか探索をしていないので、最適なパラメータが得られたとは言い難いです。実データでパラメータチューニングを行う際は、探索空間の大きさに応じて探索回数を適度に増やすのが無難です。

"values": {"filters": 10, "kernel_size": 3, "units": 50, "learning_rate": 0.001}

今回は使いませんでしたが、get_best_models() で最良の結果を残したモデルをピックアップできます。（このメソッドを使わなくても、重みファイルは自動で保存されます。）

まとめ

今回は、Keras Tunerを活用したハイパーパラメータチューニングの方法について紹介をしました。簡単に使えるので便利ですね。

他にも便利なチューニングツール（例: Optuna）が数多く公開されているので、確認してみると良いかもしれません。

ソースコード

ソースコードは、GitHubにて公開してあります。

実装とともに学ぶ交差検証のお話

2019-08-04T00:00:00+00:00

はじめに

機械学習を活用した研究に取り組んでいると，論文中に “k-fold CV” や “cross-validation”，「交差検証」といった表記を見かけるときが多々あると思います．また実際に機械学習モデルを構築してその性能を評価したいときに，より厳密に性能を測定するには，「交差検証」の適用は避けられません．

そこで，本稿では，「ゼロから作るDeep Learningとともに学ぶフレームワーク」で用いられていたソースコードを基に，交差検証の基本的な考え方とその適用方法について紹介します．ソースコードとともに本稿の内容を理解することで，交差検証に関する基礎的な知識が身につくものと想定されます．

それでは交差検証の解説から始めていきましょう．

1. 交差検証とは

交差検証とはデータセットを細切れに分割して，異なる組合せで複数回機械学習モデルを学習させて，それらの平均をとることによりモデルの性能を測る手法のことを指します．

交差検証を使わない場合，データセットを学習用 (training set)・検証用 (validation/development set)・テスト用 (test set) の3つに分割して，モデルの性能を評価することが多いと思われます．しかしながらテスト・検証用セットを設けることで，実際に学習に使えるデータ数が減少してしまうというデメリットがあります．また最終的な評価結果もデータセットのサンプリング方法によって左右される恐れもあります．

交差検証を用いることで検証用セットだけのためのデータを確保する必要がなくなるため，データセットを存分に活用することができ，異なる組合せで複数回学習させた結果の平均をとるので，より正確な性能評価が可能となります．

交差検証の主な種類としては，以下の二つが挙げられます．

K分割交差検証 (k-fold cross validation)
データセットを $k$ 個に分割をし，$k-1$ 個のデータのかたまりで機械学習モデルを学習させて，残りの$1$ 個の未知データでモデルの検証（テスト）を行います．この流れを異なる組合せで $k$ 回行い，最終的な結果はそれぞれの組合せでの実験結果の平均として得られます．
Leave One Out 交差検証
Leave One Out 交差検証はその名の通りデータを一個だけ残して交差検証を行うことを指します．つまり，K分割交差検証で，$K = n$ ($n$ はデータ数)とすることを意味しています．しかしこの手法はかなり計算コストが高いので，あまり深層学習を適用している研究分野で使われている例を見たことがありません…

念の為確認しておくと，機械学習モデルの学習・評価の流れとしては，まず学習用セットでモデルを学習させて，検証用セットで学習したモデルを評価（early stopping の適用やハイパーパラメータの最適化など）します．最後に検証用セットで良好な結果を残したモデルについて，最終的な評価を下すためにテストセットを一度だけ適用します．（テストセットはある学習済みモデルにとって未知(unseen)であることが求められます．）

1.1 K分割交差検証

K分割交差検証の例として，データセットを3分割にしたときの，3分割交差検証の流れを見ていきましょう．

流れとしては，まずデータ①と②で学習させたモデルをデータ③で性能評価し，その後データ①と③で学習させたモデルをデータ②でテストし，最後にデータ②と③で学習させたモデルをデータ①で評価します．最終的な結果は各性能評価の平均となります．

例：3分割交差検証のときの可視化図

より厳密にモデルの評価を行う場合はあらかじめデータセットを2分割にして，うち片方をテストセットとしてキープしておきます．（ホールドアウトともいう．）最終的な性能評価はテストセットで行います．

ここまで厳密にやるのは，イメージ的にはコンペ系のタスクが多いのかなと感じます．この場合，テストセットはリークを防ぐために公開されていないケースが多いです．

例：3分割交差検証のときの可視化図（厳密なとき）

1.2 層化K分割交差検証

これまで見てきた交差検証の例はデータセットのクラスの偏りについて考慮していませんでした．分類問題に対して交差検証を適用する場合には，データセット中の各クラスの出現確率に注意を払う必要がでてきます．具体的にはデータセットが不均衡となっている場合に，通常のK分割交差検証ではなく，「層化K分割交差検証」(stratified k-fold CV)を適用する必要があります．

層化K分割交差検証は，各fold（データのかたまり）での各クラスの出現確率が分割前のデータでの出現確率とほぼ同一になるようにデータを分割して，K分割交差検証を適用する手法です．これによってあるfoldにデータが偏ったり，全く存在しないといった事象を防ぐことができ，より正確に精度の計測を行うことができます．

2. 実装

「ゼロから作るDeep Learningとともに学ぶフレームワーク」で紹介したCIFAR10の分類モデルのソースコードを，k分割交差検証を適用できるように改造していきましょう．

K分割交差検証の適用方法は簡単で，scikit-learnに含まれている，model_selection.KFold クラスを使えば良いだけです．層化K分割交差検証の場合は，model_selection.StratifiedKFold クラスになります．

2.1 適用方法

まず，KFold クラスのインスタンスを生成します．

from sklearn.model_selection import KFold
kf = KFold(n_splits=5, random_state=1234)

KFold の引数は次の表のようになっています．

引数	説明
`n_splits`	データセットを何分割するかを指定します．
`shuffle`	データセットを分割前にシャッフルするかを指定します．デフォルトは `False` になっています．
`random_state`	データをランダム選択する際のシード値を指定できます．

次に，KFold クラスのメソッドである，split を使ってデータのインデックスを受け取るだけです．擬似コードは以下のようになります．

for train_index, val_index in kf.split(x_train, y_train):
    model = build_model()
    model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])
    model.fit(x=x_train[train_index], y=_y_train[train_index], batch_size=100, epochs=10, verbose=1)
    _history.append(model.evaluate(x=x_train[val_index], y=_y_train[val_index], batch_size=100))

split はジェネレータになっているので，各foldでデータのインデックスを提供してくれます．したがって，与えられたインデックスをそのままデータセットのNumPy配列に与えれば，自動的にデータが選別されます．

参照: （scikit-learn KFoldのドキュメント）

2.2 適用例

以上の一連の流れをまとめたソースコードは，cross-validationディレクトリ下に run.py として置いてあります．基になっているソースコードは，ゼロから作るDeep Learningとともに学ぶフレームワークで実装した cnn.py です．

参照: （GitHub: run.py）

run.py を用いた学習のさせ方は簡単で，python run.py で実行できます．出力としてはコマンドライン上に学習の経過が表示されるようになっており，最後に全foldでの結果の平均と標準偏差を出力させるようになっています．出力例は下記の通りです．

loss: 1.0935191447734833 ± 0.05668393814738748
acc: 0.6322800013422967 ± 0.012688641313732466

(注意) 学習にはそれなりの時間を要するので，ノートパソコン等で動作させる際には，n_splits を小さい値: 3などに設定してご利用ください．

2.3 注意点

run.py で層化K分割交差検証を適用したい場合には，main関数の引数 stratified に True を与えれば適用可能となります．ただしCIFAR10データセットは不均衡データセットではないため，実行結果への影響は軽微なものです．

まとめ

今回は交差検証について簡単に紹介しました．ゼロからKerasシリーズとの連携を想定して作成したので，GitHubの実装例もぜひ合わせて確認することをおすすめします．

参照: （GitHub: ゼロからKerasシリーズ）

きままにNLP | Kimamani NLP

Vocabulary expansion for non-SentencePiece based BPE tokeniser

Introduction

Background

Implementation

1. Load tokenisers and their metadata

2. Expand vocabulary and merge rules

3. Retrain BPE tokeniser

4. Save the tokeniser

Efficacy of vocabulary expansion

Summary

Introduction

About this blog

Contact

Privacy policy and disclaimer

非SentencePieceベースのBPEトークナイザを語彙拡張する

はじめに

前提

実装

1. 読み込み

2. 語彙とマージルールの追加

3. トークナイザの再学習

4. 保存

効果

おわりに

VS Code [Remote SSH] を古いLinuxで使う

前提

手順

1. VS Code 1.85 のダウンロード

2. 適当な場所で解凍

3. Portable Mode の有効化

4. Remote SSH をインストール

参考

Hugging Face TransformersのHfArgumentParserとargparse.ArgumentParserを併用する

状況

対処方法

英語論文を書くときに気をつけていること

1. 論文中での時制

Abstract

Introduction / Related Work

Problem Settings / Proposed Method / Methodology

Experimental Setup

Experiments / Discussion

Conclusion

2. 細かい記法

強調

セミコロン

時制の一致

3. 冠詞周り

“both” の用法

“all” の用法

省略語の冠詞

どこに冠詞をつけるか？

図表のキャプション

4. 小ネタ等

Spelling

言い回しの正確性

Rebuttalの心構え

不均衡データの分析

はじめに

1. 数値で評価

1.1 Accuracy

Accuracy の問題点

1.2 Precision

1.3 Recall

1.4 F1値

1.5 Confusion Matrix

2. 曲線の形状や面積で評価

2.1 Receiver Operating Characteristic Curve

Area Under Curve

ROC-AUC の注意点

2.2 Precision-Recall Curve

Area Under Curve

2.3 Detection Error Tradeoff Curve

Equal Error Rate

3. 簡単に実験してみる

3.1 問題設定

3.2 モデル

損失関数に重み付け

3.3 実験結果

1.1　Accuracy

　Accuracy の問題点

1.2　Precision

1.3　Recall

1.4　F1値

1.5　Confusion Matrix

2.1　Receiver Operating Characteristic Curve

　Area Under Curve

　ROC-AUC の注意点

2.2　Precision-Recall Curve

　Area Under Curve

2.3　Detection Error Tradeoff Curve

　Equal Error Rate

3.1　問題設定

3.2　モデル

　損失関数に重み付け

3.3　実験結果

　偶数データ減量前

　偶数データ95%減量後

　損失関数に重み付け後

手法（Predicting Player’s Strategic Actions）