top of page

​音声認識AIを、高品質に。

​完成した教師データをお届け
スピーディーに結果を得られます

音声アノテーションが専門
Problem

こんなお悩みありませんか?

すぐに使える学習データがほしい…

​AI開発者

Case 01

学習量

​もっと学習ボリュームを増やしたい・・・

Case 02

利用許諾

社内の限られたデータしか使えない・・・

Case 03

​種類

​ドメイン違いの会話データがほしい・・・​

About

音声アノテーションが専門

 audioコーパスは、書き起こし技術をベースに、音声認識AIの学習用データを作成するアノテーション専門会社です。

10年以上書き起こし業界に携わった経験を活かし、品質向上に全力でサポートします。すべてが自社製作のオリジナルデータ。PoCの検証にも最適な教師データをお届けします。

Contents

AI学習用データセット

発話の収録音源データ

作成に手間と時間のかかる
アノテーション付与した教師データ(.txt)を、
発話ドメインごとの収録音源(.wav)とセットで、
データ販売いたします。

​教師データ
00:00:01,00:00:04,お電話ありがとうございます。
00:00:09,00:00:12,お世話になります。私、山田と申します:。
00:00:15,00:00:20,(F はい)本日はどんなご用件でしょうか。
00:00:22,00:00:26,(D は)初めてご連絡するんですけども、
00:00:26,00:00:27,(F はい)ありがとうございます。
00:00:32,00:00:36,(F あ)御社のホームページ拝見しまして:、
00:00:40,00:00:47,(F えー)お電話差し上げました。
00:00:49,00:00:53,ご覧いただき、誠にありがとうございます。
00:00:55,00:01:00,当サービスをご説明させていただきます。
※話者識別 , 区間区切り , アノテーション書き起こし
こだわった品質のアノテーションデータ

音声認識を一歩先へ

Quality

​トコトンこだわった品質

 書き起こしやタグ入力は、誰でもできる軽作業と思われがちですが、要件定義やゆらぎ防止など品質追求が欠かせません。

アノテーションは、書き起こしの基本をおさえ、教育指導、作業マニュアル、ベテラン作業者、ディレクション管理が必要不可欠です。

Make
Annotation Date

Value

音声認識に特化したデータ製作

即時納入

学習に必要なデータはすでに用意してあります。
10時間単位で納入させていただきます。


sampleをご確認したい方はお問い合わせください。

●営業商談 音源

 A-1 2時間 A-2 10時間 ・・・

 

▲コールセンター 音源

 B-1 2時間 B-2 10時間 ・・・

■打ち合わせ 音源

 C-1 2時間 C-2 10時間 ・・・

区切りマージン200msec

発話セグメント(発話ひとかたまり)の始まり位置、終わり位置のタイムスタンプの誤差は0.2秒以内に抑えています。
 

機械認識する際に、無関係な音を拾いません。

200msec

200msec

表記統一・ゆらぎ防止

書き起こしのプロフェッショナルによる表記統一、言葉のゆらぎを発生させません。
 

ゆらぎとは記述が複数あるもの。言葉の使い分け、外来語由来、製品名などで多く発生します。

作業マニュアル

​仕様設計書

ナレッジ・蓄積

6つのアノテーションタグ

フィラー、言い直し、延伸(語尾の延ばし)、聞き取り不明、未確証、笑いにタグを付与します。

開発における検証の最適化、結果の価値向上に努めます。

 (F )フィラー

  (D )言い直し

   :  延伸

    (? )未確証

    (?) 不明

      <笑> 笑い

品質担保

トリプルチェック体制。

書き起こしの原稿品質、タグの挿入タイミング、統一表記のルールなど、複数名による目視ならび検聴、機械チェックを徹底しています。

​データの不備を見逃しません。

書き起こし作業者/worker

品質チェッカー/Quality checker

機械チェック/Machine check

カスタマイズ対応

ご要望の仕様があれば承ります。

当社の強みは、経験に基づく書き起こしノウハウおよび技術です。

販売製品以外の製作も随時受け付けています。

 ■オーダーシート

  専用データ作成

   発話収録のみ依頼

   書き起こしのみ依頼

    校正・修正を依頼​

 ■オプション

 ・要件定義

  ・ディレクション

   ・仕様書の作成

即時納入
区切りマージン200msec
表記統一
6つのアノテーションタグ
品質担保
カスタマイズ対応
AdobeStock_360573173.jpeg
Product

​選べる発話ドメイン

さまざまなシーンの会話からデータをお選びいただけます。

データセット販売_営業商談_小

audioコーパスセット S5

データセット販売_営業商談_小

audioコーパスセット S3

データセット販売_営業商談_小

audioコーパスセット S4

データセット販売_営業商談_小

audioコーパスセット S2

Work system

品質を担保する作業体制

ディレクター
ナレッジ共有
作業マニュアル
専任作業チーム
品質チェッカー
Tools

使用ソフトウェア

 書き起こしに「okoshiyasu2」「KeyPlayer」「FTSW tool」など、区間区切りに「Transcriber」「ELAN」「praat」「Aegisub」など、チェッカーに「sakuraエディター」「Excel」など、音声加工編集に「Xmedia Recode」「Audacity」など

Contact

お問い合わせ

お気軽にお問い合わせください。

audioコーパス株式会社は、​音声認識のためのデータ製作を本業として、AIエンジンの開発ならび機械学習のお手伝いをさせていただきます。

 

本フォームにてご連絡をいただきましたら、弊社担当が内容を確認次第、当日中もしくは翌営業日までにご連絡させていただきます。

弊社はお客さまを第一とした企業理念を掲げております。一方的な営業連絡は行うことはいたしません。

 

弊社を必要としていただき、​当サービスがお客さまにおける最適なご提案となりましたら大変光栄に存じます。

​ご愛顧のほど何とぞよろしくお願い申し上げます。

お問い合わせの種類

​ 必須 

​ 必須 

個人情報の取り扱いに関しては「個人情報の取扱いについて 」をお読みいただき、同意のうえお問い合わせください。

送信ありがとうございます。

担当よりご連絡させていただきます。

bottom of page