top of page

​音声認識AIを、高品質に。

​完成した教師データをお届け
スピーディーに結果を得られます

音声アノテーションが専門
Problem

こんなお悩みありませんか?

すぐに使える学習データがほしい…

​AI開発者

Case 01

学習量

​もっと学習ボリュームを増やしたい・・・

Case 02

利用許諾

社内の限られたデータしか使えない・・・

Case 03

​種類

​ドメイン違いの会話データがほしい・・・​

About

音声アノテーションが専門

 audioコーパス®は、書き起こし技術をベースに、音声認識AIの学習用データを作成するアノテーション専門会社です。

10年以上書き起こし業界に携わった経験を活かし、品質向上に全力でサポートします。すべてが自社製作のオリジナルデータ。PoCの検証にも最適な教師データをお届けします。

Contents

AI学習用データセット

発話の収録音源データ

作成に手間と時間のかかる
アノテーション付与した教師データ(.txt)を、
発話ドメインごとの収録音源(.wav)とセットで、
データ販売いたします。

​教師データ
00:00:01,00:00:04,お電話ありがとうございます。
00:00:09,00:00:12,お世話になります。私、山田と申します:。
00:00:15,00:00:20,(F はい)本日はどんなご用件でしょうか。
00:00:22,00:00:26,(D は)初めてご連絡するんですけども、
00:00:26,00:00:27,(F はい)ありがとうございます。
00:00:32,00:00:36,(F あ)御社のホームページ拝見しまして:、
00:00:40,00:00:47,(F えー)お電話差し上げました。
00:00:49,00:00:53,ご覧いただき、誠にありがとうございます。
00:00:55,00:01:00,当サービスをご説明させていただきます。
※話者識別 , 区間区切り , アノテーション書き起こし
こだわった品質のアノテーションデータ

音声認識を一歩先へ

Quality

​トコトンこだわった品質

 書き起こしやタグ入力は、誰でもできる軽作業と思われがちですが、要件定義やゆらぎ防止など品質追求が欠かせません。

アノテーションは、書き起こしの基本をおさえ、教育指導、作業マニュアル、ベテラン作業者、ディレクション管理が必要不可欠です。

Make
Annotation Date

Value

音声認識に特化したデータ製作

即時納入

学習に必要なデータはすでに用意してあります。
10時間単位で納入させていただきます。


sampleをご確認したい方はお問い合わせください。

●営業商談 音源

 A-1 2時間 A-2 10時間 ・・・

 

▲コールセンター 音源

 B-1 2時間 B-2 10時間 ・・・

■打ち合わせ 音源

 C-1 2時間 C-2 10時間 ・・・

区切りマージン200msec

発話セグメント(発話ひとかたまり)の始まり位置、終わり位置のタイムスタンプの誤差は0.2秒以内に抑えています。
 

機械認識する際に、無関係な音を拾いません。

200msec

200msec

表記統一・ゆらぎ防止

書き起こしのプロフェッショナルによる表記統一、言葉のゆらぎを発生させません。
 

ゆらぎとは記述が複数あるもの。言葉の使い分け、外来語由来、製品名などで多く発生します。

作業マニュアル

​仕様設計書

ナレッジ・蓄積

6つのアノテーションタグ

フィラー、言い直し、延伸(語尾の延ばし)、聞き取り不明、未確証、笑いにタグを付与します。

開発における検証の最適化、結果の価値向上に努めます。

 (F )フィラー

  (D )言い直し

   :  延伸

    (? )未確証

    (?) 不明

      <笑> 笑い

品質担保

トリプルチェック体制。

書き起こしの原稿品質、タグの挿入タイミング、統一表記のルールなど、複数名による目視ならび検聴、機械チェックを徹底しています。

​データの不備を見逃しません。