Problem
こんなお悩みありませんか?
すぐに使える学習データがほしい…
AI開発者
Case 01
学習量
もっと学習ボリュームを増やしたい・・・
Case 02
利用許諾
社内の限られたデータしか使えない・・・
Case 03
種類
ドメイン違いの会話データがほしい・・・
About
音声アノテーションが専門
audioコーパス®は、書き起こし技術をベースに、音声認識AIの学習用データを作成するアノテーション専門会社です。
10年以上書き起こし業界に携わった経験を活かし、品質向上に全力でサポートします。すべてが自社製作のオリジナルデータ。PoCの検証にも最適な教師データをお届けします。
Contents
AI学習用データセット
作成に手間と時間のかかる
アノテーション付与した教師データ(.txt)を、
発話ドメインごとの収録音源(.wav)とセットで、
データ販売いたします。
教師データ
00:00:01,00:00:04,お電話ありがとうございます。
00:00:09,00:00:12,お世話になります。私、山田と申します:。
00:00:15,00:00:20,(F はい)本日はどんなご用件でしょうか。
00:00:22,00:00:26,(D は)初めてご連絡するんですけども、
00:00:26,00:00:27,(F はい)ありがとうございます。
00:00:32,00:00:36,(F あ)御社のホームページ拝見しまして:、
00:00:40,00:00:47,(F えー)お電話差し上げました。
00:00:49,00:00:53,ご覧いただき、誠にありがとうございます。
00:00:55,00:01:00,当サービスをご説明させていただきます。
※話者識別 , 区間区切り , アノテーション書き起こし
音声認識を一歩先へ
Quality
トコトンこだわった品質
書き起こしやタグ入力は、誰でもできる軽作業と思われがちですが、要件定義やゆらぎ防止など品質追求が欠かせません。
アノテーションは、書き起こしの基本をおさえ、教育指導、作業マニュアル、ベテラン作業者、ディレクション管理が必要不可欠です。
Make
Annotation Date
Value
音声認識に特化したデータ製作
即時納入
学習に必要なデータはすでに用意してあります。
10時間単位で納入させていただきます。
sampleをご確認したい方はお問い合わせください。
●営業商談 音源
A-1 2時間 A-2 10時間 ・・・
▲コールセンター 音源
B-1 2時間 B-2 10時間 ・・・
■打ち合わせ 音源
C-1 2時間 C-2 10時間 ・・・
区切りマージン200msec
発話セグメント(発話ひとかたまり)の始まり位置、終わり位置のタイムスタンプの誤差は0.2秒以内に抑えています。
機械認識する際に、無関係な音を拾いません。
200msec
200msec
表記統一・ゆらぎ防止
書き起こしのプロフェッショナルによる表記統一、言葉のゆらぎを発生させません。
ゆらぎとは記述が複数あるもの。言葉の使い分け、外来語由来、製品名などで多く発生します。
作業マニュアル
仕様設計書
ナレッジ・蓄積
6つのアノテーションタグ
フィラー、言い直し、延伸(語尾の延ばし)、聞き取り不明、未確証、笑いにタグを付与します。
開発における検証の最適化、結果の価値向上に努めます。
(F )フィラー
(D )言い直し
: 延伸
(? )未確証
(?) 不明
<笑> 笑い
品質担保
トリプルチェック体制。
書き起こしの原稿品質、タグの挿入タイミング、統一表記のルールなど、複数名による目視ならび検聴、機械チェックを徹底しています。
データの不備を見逃しません。