Open JTalk

Open JTalk
開発元	名古屋工業大学

最新版	オンライン版:1.06, SourceForge版:1.11 / 2012年12月25日 (11年前) (2012-12-25), SourceForge版: 2018年12月25日 (5年前) (2018-12-25)
リポジトリ	sourceforge.net/projects/open-jtalk/
プログラミング言語	C++
使用エンジン	HTS
対応OS	Linux、他
対応言語	日本語
サポート状況	開発中
種別	音声合成, Text-To-Speech
ライセンス	修正BSDライセンス
公式サイト	open-jtalk.sp.nitech.ac.jp
テンプレートを表示

Open JTalk（おーぷんじぇいとーく）は、名古屋工業大学で開発された音声合成技術および同技術を応用した、日本語向けのテキストトゥスピーチ（文章読み上げ）ソフト。日本語の文章を入力することで音声を合成し、読み上げることができる。

概要

名古屋工業大学にて開発・メンテナンスが続けられている日本語音声合成ソフトウェア。オープンソースで公開されているスタンドアロン版と、Webサイトで公開されているオンライン版の2種類がある。

合成技術にHMM（Hidden Markov Model、隠れマルコフモデル）を採用しており、少ないメモリでも動作するのが特徴^[1]。その特徴からRaspberry Pi上での音声合成ライブラリとしての利用例も多い。

パラメータとしては「声質」（フォルマントシフト）、「ピッチシフト」（声の高さ）、「話速」に対応し、ボイスを切り替えることで感情表現にも対応する。

オンライン版

公式サイト^[2] 上でシステムを公開しており、誰でも無料で利用可能。

指定可能なボイス（音響モデル）は2種類（男性1種類、女性4感情4種類）。

オープンソース版

SourceForgeにてソースコードが公開されている。利用にはビルドが必要。ビルドすることで各種OSに対応する。修正BSDライセンスで公開されている。音声合成にはさらに辞書データとボイスデータ（音響モデル、htsvoice形式）が必要^[1]。ライセンスに従うことでライブラリとして他ソフトウェアに組み込むことも可能。

導入

複数のOSに対応しているものの、OSS版はソースコードとしての公開のため導入にはビルドが必要となる。有志によって簡単に使えるように、さまざまな導入方法が用意されている。

アプリとしての導入方法

一部を除き、原則コマンドラインアプリとしての入手になる。

SHABERU: Windows向けのGUIのあるフリーソフト。追加音響モデルにも対応する。^[3]

パッケージマネージャを利用した導入方法

辞書データや音響モデルの追加導入が必要な場合がある(APT等)。また、導入後ビルドが必要な場合もある(pyopenjtalk等)。

Docker: docker pull u6kapps/open_jtalk ^[4]
Homebrew: brew install open-jtalk ^[5]
APT: apt install open-jtalk ^[6]; apt install open-jtalk-mecab-naist-jdic ※辞書データ; apt install hts-voice-nitech-jp-atr503-m001 ※音響モデル
Python: pip install pyopenjtalk ^[7]
.NET(NuGet): Install-Package SharpOpenJTalk ^[8]
Node.js (npm): npm install openjtalk ^[9]

音響モデル

Open JTalkで利用可能な音響モデル（ボイスライブラリ、htsvoice形式）の例。音響モデルは自作することも可能であり、SHABERU等むけにユーザーが制作した音響モデルが配布されている（規約で許可されていればOpen JTalkで利用可能）^[10]。

NIT ATR503 M001

標準男声音響モデル。Open JTalk本体、辞書データと共に配布されている^[11]。クリエイティブ・コモンズ・ライセンス3.0ライセンス。

メイ

メイ（HTS Voice "Mei"）は名古屋工業大学のMMD Agentを用いたデジタルサイネージでキャンパス案内を行う女性キャラクター^[12]。MMD Agentと共にクリエイティブ・コモンズ・ライセンスで配布されている^[13]。

Open JTalkで追加女声音響モデルとして利用可能。5つの感情別音響モデル（normal, happy, angry, sad, bashful）がある。

タクミ

タクミ（HTS Voice "Takumi"）はメイと共に名古屋工業大学のMMD Agentを用いたデジタルサイネージでキャンパス案内を行う男性キャラクター^[12]。MMD Agentと共にクリエイティブ・コモンズ・ライセンスで配布されている^[13]。

Open JTalkで追加男声音響モデルとして利用可能。4つの感情別音響モデル（normal, happy, angry, sad）がある。

tohoku-f01

東北大学伊藤・能勢研究室^[14] によって配布されている、Open JTalkで利用可能な女声音響モデル。クリエイティブ・コモンズ・ライセンス(4.0)で配布されている^[15]。

4つの感情別音響モデル（angry, happy, neutral, sad）がある。

ライブラリ・フレームワークとしての利用

音声合成を行わず、OpenJTalkの日本語処理部分のみを利用する事例がいくつか存在する。

DeNAによるハッカドールのキャラクターを利用した音声合成研究事例^[16]
VOICEVOX - ヒホ（ヒロシバ）作の、ITAコーパス^[17] を利用したボイスが利用可能なOSSなDNN音声合成ソフト^[18]。
シロワニさんのつくよみちゃんトークソフト - シロワニさん作の、フリーのDNN音声合成ソフト^[19]。

脚注

^ ^a ^b ^c ^d 大浦圭一郎, 橋本佳, 南角吉彦, 徳田恵一「隠れマルコフモデルに基づく日本語音声合成ソフトウェア入門」『システム／制御／情報』第62巻第2号、システム制御情報学会、2018年、57-62頁、doi:10.11509/isciesci.62.2_57。
^ Open JTalk - HMM-based Text-to-Speech System- 公式サイト
^ “なんかいろいろしてみますダウンロード”. 2021年9月23日閲覧。
^ “u6kapps/open_jtalk - Docker Image”. 2021年9月23日閲覧。
^ “open-jtalk — Homebrew Formulae”. 2021年9月23日閲覧。
^ “open-jtalk - Debian Package Tracker”. 2021年9月23日閲覧。
^ “pyopenjtalk — pyopenjtalk 0.1.6+7ad3adc documentation”. 2021年9月23日閲覧。
^ “NuGet Gallery”. 2021年9月23日閲覧。
^ “openjtalk - npm”. 2021年9月23日閲覧。
^ “なんかいろいろしてみますダウンロード”. 2021年9月23日閲覧。
^ “ダウンロードファイル一覧 - Open JTalk - OSDN”. 2021年9月23日閲覧。
^ ^a ^b “メイ&タクミ公式ウェブサイト”. 2021年9月23日閲覧。
^ ^a ^b “mmdagent.jp”. 名古屋工業大学. 2021年9月23日閲覧。
^ “東北大学大学院工学研究科伊藤・能勢研究室”. 2021年9月23日閲覧。
^ “icn-lab/htsvoice-tohoku-f01: Japanese female HTS voice with four emotions {angry, happy, neutral, sad}”. 2021年9月23日閲覧。
^ “エンタメ活用へ向けたAIによる音声生成（Part1） · DeNA Engineers' Blog”. DeNA (2020年3月4日). 2021年9月19日閲覧。
^ “高い、使いにくい、読みにくい──音声合成研究者を悩ませるハードルを解決する“台本”、明治大学らが発表 - ITmedia NEWS” (2021年6月18日). 2021年9月19日閲覧。
^ “無料のAI音声合成ソフト「VOICEVOX」公開。商用利用も可 - PC Watch”. 2021年9月19日閲覧。
^ “シロワニさんのつくよみちゃんトークソフト置き場 - シロワニさんの機械学習ブログ”. 2021年9月19日閲覧。
^ 大浦圭一郎 - 大浦准教授のプロフィール
^ Techno-Speech, Inc. / 株式会社テクノスピーチ
^ “OpenJTalk の解析資料”. 2021年9月19日閲覧。

外部リンク

Open JTalk - HMM-based Text-to-Speech System - 公式サイト（オンライン版）
Open JTalk - SourceForge版公式サイト
SHABERU - フリーの音声合成ソフト。Windows向けのOpen JTalkのスタンドアロンソフト。有志による追加ボイス（音響モデル、htsvoice形式）が充実している
pyopenjtalk - Python向けのラッパーライブラリ
SharpOpenJTalk - C#向けのラッパーライブラリ
node-openjtalk - Node.js向けのラッパーライブラリ
Gyutan - Java移植版
jtalkDLL - 各プログラミング言語から利用するための共有ライブラリ版
OpenJTalk For Unity - Unity(ゲームエンジン)むけプラグイン
tdmelodic_openjtalk - NEologdを基にした日本語アクセント辞書tdmelodicをOpen JTalkから利用できるようにした辞書データ。商用利用不可

音声合成

モデル / 手法

エンジン

商用	AquesTalk AITalk ReadSpeaker FineSpeech RECAIUS RubyTalk VoiceOperator CereProc（英語版） IVONA（英語版） Microsoft text-to-speech voices（英語版） PlainTalk（英語版） Syllaflow Seiren Voice
フリー	eSpeak（英語版） Gnuspeech（英語版） Festival Speech Synthesis System（英語版） Open JTalk
非OSS	MBROLA（英語版）

システム / API

商　用	Microsoft Speech API Microsoft Speech Server（英語版） Talk It!（英語版）
フリー	FreeTTS（英語版）

ハードウェア

歴史的	DECtalk（英語版） Pattern playback（英語版） The Voder（英語版） Wolfgang von Kempelen's speaking machine（英語版）
LSI	GI SP0256（英語版） TI LPC Speech Chips（英語版）
娯楽	Currah（英語版） Echo 2（英語版） Phasor（英語版） Intellivoice（英語版） Speak & Spell（英語版） PC-6000シリーズ PC-6600シリーズ Yamaha CX5M（英語版）

応用ソフトウェア

商用	VOICEROID CeVIO Megpoid Talk A.I.VOICE ボイスソムリエ AOLbyPhone（英語版） DialogOS（英語版） Dr. Sbaitso（英語版） Microsoft Agent（英語版） Microsoft Narrator（英語版） Voice font（英語版） VOICEPEAK
フリー	棒読みちゃん SofTalk VOICEVOX COEIROINK
サイト	コエステーション / CoeAvatar CoeFont

アクセシビリティ

RIAS（英語版）
Silent speech interface（英語版）
Speech-generating device（英語版）
Spoken Web（英語版）
TuVox（英語版）

スクリーン
リーダー
（リスト）

商用	JAWS PC Talker（） VoiceOver
フリー	BRLTTY（） Gnopernicus（英語版） GR for UNIX（） NonVisual Desktop Access Orca Thunder（英語版）
ハード	簡単ケータイらくらくホン

Self-voicing

商用	WordQ+SpeakQ（英語版）
フリー	Emacspeak（英語版）

音声ブラウザ

商用	aiBrowser ホームページリーダー Spoken Web（英語版）

ブラウザ拡張

フリー	Fire Vox（英語版） Text to Voice（英語版）

サイト拡張

商用	BrowseAloud（英語版） Readspeaker（英語版）

ボーカルシンセ

商用	Cantor（英語版） VOCALOID CeVIO Synthesizer V くまうた
フリー	AquesTone Flinger（英語版）ディレイラマ Sinsy NEUTRINO
シェア	UTAU
非OSS	MBROLA（英語版）
ハード	DECtalk（英語版） PC-6000シリーズ PC-6600シリーズ Yamaha CX5-M（英語版）
応用	ぼかりす
サイト	コエラボ