Open JTalk

Open JTalk
開発元 名古屋工業大学
最新版
オンライン版:1.06, SourceForge版:1.11 / 2012年12月25日 (11年前) (2012-12-25), SourceForge版: 2018年12月25日 (5年前) (2018-12-25)
リポジトリ sourceforge.net/projects/open-jtalk/
プログラミング
言語
C++
使用エンジン HTS
対応OS Linux、他
対応言語 日本語
サポート状況 開発中
種別 音声合成, Text-To-Speech
ライセンス 修正BSDライセンス
公式サイト open-jtalk.sp.nitech.ac.jp
テンプレートを表示

Open JTalkおーぷんじぇいとーく)は、名古屋工業大学で開発された音声合成技術および同技術を応用した、日本語向けのテキストトゥスピーチ(文章読み上げ)ソフト。日本語の文章を入力することで音声を合成し、読み上げることができる。

概要

OpenJTalkの音声合成基礎技術は名古屋工業大学での研究が基になっており、開発と運営が続けられている。

名古屋工業大学にて開発・メンテナンスが続けられている日本語音声合成ソフトウェア。オープンソースで公開されているスタンドアロン版と、Webサイトで公開されているオンライン版の2種類がある。

合成技術にHMM(Hidden Markov Model、隠れマルコフモデル)を採用しており、少ないメモリでも動作するのが特徴[1]。その特徴からRaspberry Pi上での音声合成ライブラリとしての利用例も多い。

パラメータとしては「声質」(フォルマントシフト)、「ピッチシフト」(声の高さ)、「話速」に対応し、ボイスを切り替えることで感情表現にも対応する。

オンライン版

公式サイト[2] 上でシステムを公開しており、誰でも無料で利用可能。

指定可能なボイス(音響モデル)は2種類(男性1種類、女性4感情4種類)。

オープンソース版

SourceForgeにてソースコードが公開されている。利用にはビルドが必要。ビルドすることで各種OSに対応する。修正BSDライセンスで公開されている。 音声合成にはさらに辞書データとボイスデータ(音響モデル、htsvoice形式)が必要[1]。 ライセンスに従うことでライブラリとして他ソフトウェアに組み込むことも可能。

導入

複数のOSに対応しているものの、OSS版はソースコードとしての公開のため導入にはビルドが必要となる。有志によって簡単に使えるように、さまざまな導入方法が用意されている。

アプリとしての導入方法

一部を除き、原則コマンドラインアプリとしての入手になる。

SHABERU
Windows向けのGUIのあるフリーソフト。追加音響モデルにも対応する。[3]

パッケージマネージャを利用した導入方法

辞書データや音響モデルの追加導入が必要な場合がある(APT等)。また、導入後ビルドが必要な場合もある(pyopenjtalk等)。

Docker
docker pull u6kapps/open_jtalk [4]
Homebrew
brew install open-jtalk [5]
APT
apt install open-jtalk [6]
apt install open-jtalk-mecab-naist-jdic ※辞書データ
apt install hts-voice-nitech-jp-atr503-m001 ※音響モデル
Python
pip install pyopenjtalk [7]
.NET(NuGet)
Install-Package SharpOpenJTalk [8]
Node.js (npm)
npm install openjtalk [9]


音響モデル

Open JTalkで利用可能な音響モデル(ボイスライブラリ、htsvoice形式)の例。音響モデルは自作することも可能であり、SHABERU等むけにユーザーが制作した音響モデルが配布されている(規約で許可されていればOpen JTalkで利用可能)[10]

NIT ATR503 M001

標準男声音響モデル。Open JTalk本体、辞書データと共に配布されている[11]クリエイティブ・コモンズ・ライセンス3.0ライセンス。

メイ

メイ(HTS Voice "Mei")は名古屋工業大学のMMD Agentを用いたデジタルサイネージでキャンパス案内を行う女性キャラクター[12]。MMD Agentと共にクリエイティブ・コモンズ・ライセンスで配布されている[13]

Open JTalkで追加女声音響モデルとして利用可能。5つの感情別音響モデル(normal, happy, angry, sad, bashful)がある。

タクミ

タクミ(HTS Voice "Takumi")はメイと共に名古屋工業大学のMMD Agentを用いたデジタルサイネージでキャンパス案内を行う男性キャラクター[12]。MMD Agentと共にクリエイティブ・コモンズ・ライセンスで配布されている[13]

Open JTalkで追加男声音響モデルとして利用可能。4つの感情別音響モデル(normal, happy, angry, sad)がある。

tohoku-f01

東北大学 伊藤・能勢研究室[14] によって配布されている、Open JTalkで利用可能な女声音響モデル。クリエイティブ・コモンズ・ライセンス(4.0)で配布されている[15]

4つの感情別音響モデル(angry, happy, neutral, sad)がある。

ライブラリ・フレームワークとしての利用

音声合成を行わず、OpenJTalkの日本語処理部分のみを利用する事例がいくつか存在する。

  • DeNAによるハッカドールのキャラクターを利用した音声合成研究事例[16]
  • VOICEVOX - ヒホ(ヒロシバ)作の、ITAコーパス[17] を利用したボイスが利用可能なOSSなDNN音声合成ソフト[18]
  • シロワニさんのつくよみちゃんトークソフト - シロワニさん作の、フリーのDNN音声合成ソフト[19]

関連項目

  • 名古屋工業大学
    • Sinsy - Open JTalkと同じ開発者らが開発・メンテナンスを続けているオープンソースの歌声合成ソフト(ボーカルシンセサイザー)。
    • MMD Agent - Open JTalkと同じ開発者らが開発・メンテナンスを続けているMMDモデルを利用可能な対話エージェントシステム。音声合成部分はOpenJTalkが使われている[1]
  • 隠れマルコフモデル
  • 音声合成
  • CeVIO Creative Studio - スタンドアロンな日本語音声合成機能を実装した商用姉妹ソフト。開発はOpen JTalkの開発者ら[20] が立ち上げた大学ベンチャーであるテクノスピーチ社[21]
  • MeCab - 形態素解析部分に利用されている。発音辞書データもMeCab向けの「NAIST Japanese Dictionary」を利用するが、アクセント情報の付与された独自の拡張となっている[1][22]
  • NonVisual Desktop Access (NVDA) - Open JTalkが利用可能なOSSのスクリーンリーダー

脚注

  1. ^ a b c d 大浦圭一郎, 橋本佳, 南角吉彦, 徳田恵一「隠れマルコフモデルに基づく日本語音声合成ソフトウェア入門」『システム/制御/情報』第62巻第2号、システム制御情報学会、2018年、57-62頁、doi:10.11509/isciesci.62.2_57。 
  2. ^ Open JTalk - HMM-based Text-to-Speech System- 公式サイト
  3. ^ “なんかいろいろしてみます ダウンロード”. 2021年9月23日閲覧。
  4. ^ “u6kapps/open_jtalk - Docker Image”. 2021年9月23日閲覧。
  5. ^ “open-jtalk — Homebrew Formulae”. 2021年9月23日閲覧。
  6. ^ “open-jtalk - Debian Package Tracker”. 2021年9月23日閲覧。
  7. ^ “pyopenjtalk — pyopenjtalk 0.1.6+7ad3adc documentation”. 2021年9月23日閲覧。
  8. ^ “NuGet Gallery”. 2021年9月23日閲覧。
  9. ^ “openjtalk - npm”. 2021年9月23日閲覧。
  10. ^ “なんかいろいろしてみます ダウンロード”. 2021年9月23日閲覧。
  11. ^ “ダウンロードファイル一覧 - Open JTalk - OSDN”. 2021年9月23日閲覧。
  12. ^ a b “メイ&タクミ公式ウェブサイト”. 2021年9月23日閲覧。
  13. ^ a b “mmdagent.jp”. 名古屋工業大学. 2021年9月23日閲覧。
  14. ^ “東北大学大学院工学研究科 伊藤・能勢研究室”. 2021年9月23日閲覧。
  15. ^ “icn-lab/htsvoice-tohoku-f01: Japanese female HTS voice with four emotions {angry, happy, neutral, sad}”. 2021年9月23日閲覧。
  16. ^ “エンタメ活用へ向けたAIによる音声生成(Part1) · DeNA Engineers' Blog”. DeNA (2020年3月4日). 2021年9月19日閲覧。
  17. ^ “高い、使いにくい、読みにくい──音声合成研究者を悩ませるハードルを解決する“台本”、明治大学らが発表 - ITmedia NEWS” (2021年6月18日). 2021年9月19日閲覧。
  18. ^ “無料のAI音声合成ソフト「VOICEVOX」公開。商用利用も可 - PC Watch”. 2021年9月19日閲覧。
  19. ^ “シロワニさんのつくよみちゃんトークソフト置き場 - シロワニさんの機械学習ブログ”. 2021年9月19日閲覧。
  20. ^ 大浦圭一郎 - 大浦准教授のプロフィール
  21. ^ Techno-Speech, Inc. / 株式会社テクノスピーチ
  22. ^ “OpenJTalk の解析資料”. 2021年9月19日閲覧。

外部リンク

  • Open JTalk - HMM-based Text-to-Speech System - 公式サイト(オンライン版)
  • Open JTalk - SourceForge版公式サイト
  • SHABERU - フリーの音声合成ソフト。Windows向けのOpen JTalkのスタンドアロンソフト。有志による追加ボイス(音響モデル、htsvoice形式)が充実している
  • pyopenjtalk - Python向けのラッパーライブラリ
  • SharpOpenJTalk - C#向けのラッパーライブラリ
  • node-openjtalk - Node.js向けのラッパーライブラリ
  • Gyutan - Java移植版
  • jtalkDLL - 各プログラミング言語から利用するための共有ライブラリ
  • OpenJTalk For Unity - Unity(ゲームエンジン)むけプラグイン
  • tdmelodic_openjtalk - NEologdを基にした日本語アクセント辞書tdmelodicをOpen JTalkから利用できるようにした辞書データ。商用利用不可
モデル / 手法
エンジン
商用
  • AquesTalk
  • AITalk
  • ReadSpeaker
  • FineSpeech
  • RECAIUS
  • RubyTalk
  • VoiceOperator
  • CereProc(英語版)
  • IVONA(英語版)
  • Microsoft text-to-speech voices(英語版)
  • PlainTalk(英語版)
  • Syllaflow
  • Seiren Voice
フリー
  • eSpeak(英語版)
  • Gnuspeech(英語版)
  • Festival Speech Synthesis System(英語版)
  • Open JTalk
非OSS
  • MBROLA(英語版)
システム / API
商 用
フリー
  • FreeTTS(英語版)
ハードウェア
歴史的
  • DECtalk(英語版)
  • Pattern playback(英語版)
  • The Voder(英語版)
  • Wolfgang von Kempelen's speaking machine(英語版)
LSI
  • GI SP0256(英語版)
  • TI LPC Speech Chips(英語版)
娯楽
応用ソフトウェア
商用
  • VOICEROID
  • CeVIO
  • Megpoid Talk
  • A.I.VOICE
  • ボイスソムリエ
  • AOLbyPhone(英語版)
  • DialogOS(英語版)
  • Dr. Sbaitso(英語版)
  • Microsoft Agent(英語版)
  • Microsoft Narrator(英語版)
  • Voice font(英語版)
  • VOICEPEAK
フリー
サイト
アクセシビリティ
  • RIAS(英語版)
  • Silent speech interface(英語版)
  • Speech-generating device(英語版)
  • Spoken Web(英語版)
  • TuVox(英語版)
スクリーン
リーダー
(リスト)
商用
フリー
ハード
Self-voicing
商用
  • WordQ+SpeakQ(英語版)
フリー
  • Emacspeak(英語版)
音声ブラウザ
商用
ブラウザ拡張
フリー
  • Fire Vox(英語版)
  • Text to Voice(英語版)
サイト拡張
商用
  • BrowseAloud(英語版)
  • Readspeaker(英語版)
ボーカルシンセ
商用
フリー
シェア
非OSS
  • MBROLA(英語版)
ハード
応用
  • ぼかりす
サイト
サービス・サイト
  • Odiogo(英語版)
  • Quack.com(英語版)
プロトコル
開発者・研究者
  • Catherine Browman(英語版)
  • Franklin Seaney Cooper(英語版)
  • Gunnar Fant(英語版)
  • Haskins Laboratories(英語版)
  • ヴォルフガング・フォン・ケンペレン
  • Ignatius Mattingly(英語版)
  • Philip Rubin(英語版)
  • CereProc(英語版)
  • IVONA(英語版)
  • VoiceWeb(英語版)
  • ヤマハ
関連分野
カテゴリ カテゴリ
ボイス
CeVIOプロジェクト
1st PLACE
エクシング
エクシング
テイチクエンタテインメント
三波クリエイツ
VOCALOMAKETS
SSS
TOKYO6 ENTERTAINMENT
KAMITSUBAKI STUDIO
  • 可不 s
  • 星界 s
  • 裏命 s
  • 狐子 s
  • 羽累 s
インクストゥエンター
AHS
ZAN-SHIN
U-Stella
テクノスピーチ
Kizuna AI株式会社
ブシロード
ガソリンアレイ
candy cream algorithm
バンダイナムコエンターテインメント
KONAMI
  • 篁響季 s
  • 風祭朝陽 s
  • 小紫桃果 s
  • 山田花音 s
そよぎフラクタル
  • 梵そよぎ ts
s: ソングボイスのみ, t: トークボイスのみ, ts: ソング・トークボイスあり
CeVIOプロジェクト
製品
組織
関連
姉妹ブランド製品
  • VoiSona
姉妹ソフト
  • Sinsy
  • Open JTalk
  • MMDAgent
組織
その他
  • 表示
  • 編集