top of page
2022年7月4日
こんにちは。
audioコーパスの森井です。
音声認識の開発エンジニアを悩ませる”あるある”について記述したいと思います。
それは表記のばらつき(ゆらぎ)です。
教師データは、会話を書き起こす必要があるわけですが、日本語という言語の性質上、これがなかなかに曲者なのです。
日本語は、ひらがな、カタカナ、漢字、アルファベットと、複数の表記が存在するため、記述がばらつきやすい。
ウインドウズ
ウィンドウズ
Windows
windows
みなさまなら、どれを選択しますでしょうか?
横文字の記述だけではありません。
こども
子ども
子供
どれも違和感なく読めてしまうのではないでしょうか?
”こども”に関しては、
公文書では「子供」を採用し、
新聞などメディアでは「子ども」を多く採用しています。
これは正誤ではなく、どれを採用するかの問題なのです。
文字を扱うメディア、編集出版、文字起こし業界では、陰ながらにこういったルールを徹底することに取り組んでいます。職人芸といわれる由縁です。
ではまた次の情報でお会いしましょう。
bottom of page