CERのタグをデータに付与して学習を行う

## チケットのゴール

* 現在は抽出データに対して音声認識を適用し、文字誤り率`CER<=0.33`を満たす発話のみで学習を行っている。
  * 抽出データの合計時間数は最初のリリース時点で49121時間。
  * うち、`CER<=0.33`を満たす発話は19039時間（38.7%）
  * 詳細な分布は以下のヒストグラムを参照。
* 一定の基準で足切りするのではなく、CERをタグとして学習データに組み込む。
  * CERの高い（ノイズの大きい）データも学習に取り込めるようになる。
  * 従来の方式に比べて頑健なモデルが得られる可能性がある。
* この方式を検証し、精度・ロバストネスが改善するか確認する。

### 参考: 抽出データのCER分布（49121時間）


![cer](https://user-images.githubusercontent.com/8974561/216862402-a11b30a0-06d4-4616-8860-31648b0e402b.png)


Provide feedback

Saved searches

Use saved searches to filter your results more quickly

CERのタグをデータに付与して学習を行う #9

チケットのゴール

参考: 抽出データのCER分布（49121時間）

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

CERのタグをデータに付与して学習を行う #9

Description

チケットのゴール

参考: 抽出データのCER分布（49121時間）

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions