top of page

良質な教師データとは

書き起こし”あるある”について

2022年7月4日

こんにちは。

audioコーパスの森井です。


音声認識の開発エンジニアを悩ませる”あるある”について記述したいと思います。


それは表記のばらつき(ゆらぎ)です。


教師データは、会話を書き起こす必要があるわけですが、日本語という言語の性質上、これがなかなかに曲者なのです。


日本語は、ひらがな、カタカナ、漢字、アルファベットと、複数の表記が存在するため、記述がばらつきやすい。


  1. ウインドウズ

  2. ウィンドウズ

  3. Windows

  4. windows


みなさまなら、どれを選択しますでしょうか?

横文字の記述だけではありません。


  1. こども

  2. 子ども

  3. 子供


どれも違和感なく読めてしまうのではないでしょうか?


”こども”に関しては、

公文書では「子供」を採用し、

新聞などメディアでは「子ども」を多く採用しています。


これは正誤ではなく、どれを採用するかの問題なのです。


文字を扱うメディア、編集出版、文字起こし業界では、陰ながらにこういったルールを徹底することに取り組んでいます。職人芸といわれる由縁です。


ではまた次の情報でお会いしましょう。

bottom of page