2008年09月04日

aozoravoice2

先日から、再開発していた青空文庫からダウンロードしたテキストを音声ファイルにするスクリプトです。
あとからあとから、アイデアが浮かんだのでいろいろ詰め込んで書いてみました。とりあえず、このくらいの機能があればいいでしょう。
もともと自分が使うために作ったので、はじめは設定の変更もスクリプトファイルを直接編集という素っ気ないものでしたが、今回メニュー形式のものにしてみました。よかったら使ってみてください。

置き場
http://et-dev.main.jp/index.php?AozoraVoice

WindowsでSAPI5音声が入っていないと使えません。
上記の置き場所から最新版をダウンロードし、解凍してください。
readme.txtに使い方とか書いていますので、それを読んでから使ってください。

問題がまだ残っているかもしれません。もしありましたら、関連記事のコメント欄に報告お願いします。エラー報告しやすいように、エラー表示を以前のものに戻しました。エラーメッセージが出たらエラー発生の行番号も表示されるので、その行番号を一緒に教えてもらえると解決の手掛かりになります。どの作品を変換して問題が起きましたという情報もあるともっとわかりやすいです。


さて、今後も気が向いたら青空文庫関連や音声関連のソフトを書いてみたいと思っています。スクリプトで記述して自分の手の内を見せるのは、もうほどほどにするつもりですが。

次に作るとすれば、テキストファイルを元にするのではなく、ネットで直接閲覧できるXHTMLをソースにしたいです。いちいちダウンロードの操作をしなくてもいいですし、内部を見ると属性を使って情報が整理されているようですから、今回途中で諦めた著者名の抽出も簡単にできます。またアドレスで一意の文書が特定されるので、その作品だけに特定の変換をさせるという機構もすぐにできます。

それはそうと、ルビの置き換えをやってしまうと、最終的には仮名だらけの、人間にも音声合成にも読みにくい日本語になってしまいます。文学作品はできる限り作者が意図した発音にしたいので、標準でルビ置き換えの設定で読ませていますが、そのせいでかえって変な読みになってしまう可能性があります。この問題の解決策を探していくと、結局点字の文章のように、発音通りの仮名表記と、分かち書きに行き着くでしょう。最終的な目標としては、日本語を形態素解析して、自動で分かち書きにして読ませようと思っています。ついでに二倍の踊り字の精度も高められるでしょう。問題があるとすれば、僕の集中力と、最近の音声合成の分かち書きの読みの異常な下手くそさですね。そこがちょっと心配ですが。形態素解析は前にも使ったことがあるMeCabを使えば今すぐにもできそうです。

青空文庫に限定しない汎用的なものももう少しやってみたいです。クリップボードを読んだりするのや、プレイヤーのような操作性があるやつもほしいです。最初に作った textvoice というスクリプトもなんかできそうです。そういえばこの名前はmisakiさんたちの合成音声であるVOICETEXTをひっくり返した言葉になってますね。自分で名前付けておきながら、ちょっと紛らわしいです。


posted by takayan at 19:34 | Comment(18) | TrackBack(0) | aozoraVoice | このブログの読者になる | 更新情報をチェックする

2008年09月07日

北京パラリンピックでゴールボールを応援しよう!

北京パラリンピックが始まりました。開催期間は9月6日から9月17日。
やっぱり、僕の一番の注目は、ゴールボール。
ドォーモの「見えない生活」でりえちゃんファンになって、ときどきこのブログに書いてきました。強化選手に選ばれて、日本代表の女子がパラリンピックの参加が決まり、りえちゃんの代表メンバー入りも決定し、そして待ちに待った北京パラリンピックの開催です。

パラリンピックの参加選手を応援しようにも、パラリンピックはオリンピックのような生中継はしてくれません。そのかわり、NHK教育で夜、その日のダイジェストを放送してくれます。50分は短いですけどね。それから、朝ズバでも扱ってくれるみたいです。

NHKでの放送は、大会期間中NHK教育22:0〜22:50。そして、その再放送が翌日のNHK総合10:05〜10:55です。そして今日は、教育での放送の後「観戦ガイド 北京パラリンピック 世界に挑む日本代表」というガイド番組もあるようです。
追記:マイナーな競技の予選ではダイジェストには出ないみたいですね。この観戦ガイドでは以前教育テレビで流れた映像を使ってゴールボールという競技の説明がありました。

詳しい放送予定は、NHK北京パラリンピックオンライン

ネットを探すと、全部英語ですが、paralympicsporttvというのもあります。
http://www.paralympicsport.tv
What's New?の所を開くと放送予定が出てきます。今のところゴールボールはないみたい(9/9修正)

北京パラリンピックの公式サイトを見に行くと、確実に結果を知ることができます。英語で書かれていますが、なんとかなります。

オリンピックのときは、リアルタイムの点数表示までしてくれて、放送してくれないバドミントンや卓球の予選はこれを見ながら一喜一憂していましたが、残念ながら今度のパラリンピックではリアルタイムの表示はないみたいです。試合結果の方は、終了直後すぐにとはいきませんが、次の試合の開始前には用意されているようです。

ゴールボール全スケジュール
Schedual - The Official Website of the Beijing 2008 Paralympic Games  - 北京パラリンピック公式サイト内

このページの時刻は現地時間表示なので、日本時間に直すときは1時間足さないといけません。例えば、現地時間18時は日本時間の19時になります。全スケジュールなので、男子も含まれています(今回日本男子のゴールボールはオリンピックには行けませんでした)。女子だけを表示するには、右上のEventメニューでWomen's Teamを選びます。そして試合結果は、Match Statistics というリンクを開くと出てきます。PDFファイルです。

ここの北京パラリンピック公式のスケジュールで日本に関係あるのだけ調べると、

※ 時刻は現地時刻。 例えば現地時間の18:00は日本時間の19:00
※ ゲーム番号はこの大会でのゴールボールの男女全試合の通し番号

・予選リーグ(全8チームで1リーグ) 9月7日〜13日
日本代表の試合
09.07 18:00-18:45 Game 07 - 対 アメリカ
09.08 21:00-21:45 Game 20 - 対 スウェーデン
09.09 11:00-11:45 Game 23 - 対 カナダ
09.10 13:00-13:45 Game 35 - 対 デンマーク
09.11 11:00-11:45 Game 43 - 対 中国
09.12 18:00-18:45 Game 57 - 対 ブラジル
09.13 10:00-10:45 Game 62 - 対 ドイツ

予選リーグ上位4チームが決勝トーナメントに進出!

・準決勝 9月14日午前
09.14 09:00-09:45 Game 69 - 準決勝01(リーグ戦2位 - リーグ戦3位)
09.14 10:00-10:45 Game 70 - 準決勝02(リーグ戦1位 - リーグ戦4位)

・3位決定戦、決勝 9月14日午後
09.14 17:00-17:45 Game 73 - 3位決定戦(ブロンズメダルマッチ)
09.14 19:00-19:45 Game 75 - 決勝戦(ゴールドメダルマッチ)
09.14 21:00-21:20 メダル授与式(メダルセレモニー)


さて、さっそく今日から予選リーグの試合が始まりますね。最初の相手はアメリカです。開始時刻は現地時間18:00(日本時間19:00)。まずは予選突破の四強入りですね。皆さんがんばってください。応援しています。


■関連リンク

KBCドォーモ「見えない生活」
今見てみたら、動画のリンク切れてますけど。

北京パラリンピックオンライン
このNHKの特設サイトでは、応援メッセージの受付もしています。

北京オリンピック公式(英語)

国際パラリンピック委員会公式サイト (英語)

日本障害者スポーツ協会 北京パラリンピック情報

Yahoo! JAPAN - 北京パラリンピック 日本選手団にエールを送ろう!

日本ゴールボール協会

あさ坊の今日の出来事
そして、今回のゴールボール日本代表選手の一人、あさ坊さんのブログです。現地からの報告を読むことができるかもしれません。


posted by takayan at 18:32 | Comment(0) | TrackBack(0) | 見えない生活 | このブログの読者になる | 更新情報をチェックする

2008年09月08日

「DTalker for Mac OS Xのレパード対応アップデータ公開」

Mac OS Xで、日本語音声合成を使えるようにする「DTalker for Mac OS X」。
製品付属の専用ソフトでの音声読み上げなどはできていたのですが、目玉機能の一つであるVoice Overで使えないという大きな問題がありました。VoiceOverというのは、Mac OS Xで標準装備されているスクリーンリーダのことです。音声を買い足さなくても英語での読み上げ機能を持っています。前のMac OS X Tigerでは「DTalker for Mac OS X」をインストールするとVoiceOverで日本語を使える機能がなんとか使えていたのですが、レパードになって使えなくなってしまいました。同様にアプリケーションで音声合成を使うSpeech Managerでも、日本語音声が使えなくなっていました。

そんな状況だったのですが、公式サイトによると、2008年8月27日に、レパード対応アップデータがようやく公開されました。

公式サイト:
製品情報 DTalker for Mac OS X

待ちました。Leopard買ったのも、Tigerで中途半端だった機能が本格的に使えると信じたからでした。最初それが駄目だったときは、不可能だと悟るまで、何度もLeopardのクリーンインストールを試みるという涙ぐましいことをしたわけで。ほんと待ちに待ちました。

まだ、自分で入れていないので詳しいことは分かりませんが、分かったらすぐに報告したいと思います。しばらく、こちらに労力を振り分けようと思います。とりあえず、アップデータが出ていたという報告だけでも。


以前、このブログで書いたMacの音声の記事:
Macの「システムの声」の変え方
このときは、使えないはずの日本語音声が既定の音声になってしまうことへの対処法として書いたのに。


posted by takayan at 03:19 | Comment(0) | TrackBack(0) | 音声合成 | このブログの読者になる | 更新情報をチェックする

2008年09月09日

ゴールボール、予選リーグの途中経過

各チーム予選リーグ2試合目が終わりました。
現在の順位はおそらく次の通り。勝ち点の計算は以前の大会通りでたぶん(3,1,0)でいいと思いますが。

国名	勝ち	引分	負け	得点	失点	差	勝点
CHN 2 0 0 8 3 5 6
USA 2 0 0 4 0 4 6
SWE 1 1 0 7 4 3 4
DEN 1 0 1 4 3 1 3
BRA 1 0 1 9 10 -1 3
CAN 0 1 1 8 9 -1 1
JPN 0 0 2 1 6 -5 0
GER 0 0 2 1 7 -6 0

二連敗と苦しいスタートです。でも予選通過はまだ十分可能性が残っています。初得点も取れましたし、これからです。みなさん、がんばってください。応援しています。

関連リンク
浦田理恵さん、北京パラリンピックへ - 南関町・歳時記
りえちゃんの笑顔の写真です。


posted by takayan at 02:45 | Comment(0) | TrackBack(0) | 見えない生活 | このブログの読者になる | 更新情報をチェックする

2008年09月11日

北京パラリンピック、ゴールボール予選4試合目

ゴールボール、なかなか勝てませんね。今回のデンマーク戦は、大会2得点目は取れたのですが、一点差の1-2で負けてしまいました。残念。
でもまだ、予選通過の可能性はゼロではありません。
次の中国戦、悔いの無いように戦ってください。
応援してます。

下の表は七試合中四試合が終わった時点の結果を表にしたもの
北京パラリンピック公式サイトの各ゲームのデータより
国名	勝ち	引分	負け	得点	失点	差	勝点
CHN 4 0 0 17 6 11 12
DEN 3 0 1 8 5 3 9
CAN 2 1 1 12 9 3 7
BRA 2 1 1 14 13 1 7
USA 2 1 1 6 6 0 7
SWE 1 1 2 11 11 0 4
JPN 0 0 4 2 11 -9 0
GER 0 0 4 2 11 -9 0



一場面でも良いから、NHK教育のダイジェストで映してくれるといいんですが。数字だけしか眺めることができないのは、とても物足りないです。

で、いろいろ探していたら、中国在住の方が書かれた観戦記がありました。試合中の写真も何枚か掲載されています。8日にあったスウェーデン戦です。
静!ゴールボールはお静かに。 - Emmy Broad"Band"Cast 本日の北京

そして、去年リンクしたことがあるParaphoto(特定非営利活動法人 国際障害者スポーツ写真連絡協議会)の存在を思い出して、探してみたら、ゴールボール関連の記事が二つありました。いい表情をしているチームの皆さんの写真も掲載されています。

2戦目で初ゴール、されど勝利ならず (2008.9.9).... スウェーデン戦の記事

決勝トーナメント進出危うし (2008.9.9).... カナダ戦の記事

テレビ中継がありませんから、試合の様子が浮かぶようなこういう情報はありがたいです。
次回は是非とも勝利の記事を!



posted by takayan at 01:40 | Comment(0) | TrackBack(0) | 見えない生活 | このブログの読者になる | 更新情報をチェックする

2008年09月12日

ゴールボール女子、北京で初勝利!

勝ちましたよ!
北京パラリンピックの公式ページ掲載の結果によると、3-1でブラジルに勝利しました。
日本チーム、六戦目にしてやっと初勝利です。
昨日の段階で予選通過できなくなったのは残念ですけど、とにかく初勝利おめでとうございます。
ただの情報だけなのに、ほんとうれしいです。応援していた甲斐があります。
ブラジルも決勝トーナメント進出の可能性をつなぐために必死だったでしょうに、日本チームやりました。まだブラジルの可能性はわずかにゼロではないはずなので、なんか応援したくなりますけど。
明日の予選最終戦の相手はドイツです。がんばって、日本らしい戦いで、もう一勝して、帰ってきてください。

あさ坊さんのブラジル戦の報告記事
あさ坊の今日の出来事 - 初勝利☆


タグ: ,



posted by takayan at 22:34 | Comment(0) | TrackBack(0) | 見えない生活 | このブログの読者になる | 更新情報をチェックする

2008年09月25日

aozoraVoice2.3

こつこつ作っている、青空文庫の作品をメインターゲットにしたテキストを音声ファイルに変換するソフト。

いままでは設定ウィンドウで設定ファイルを作って、変換スクリプトで変換と、二つのプログラムを組み合わせて使うようになってましたが、これを統合してみました。今まで通り自動的に変換を始める機能もありますが、ファイルを与えると設定ウィンドウが開いて、そこでいろいろ決めた後、変換ボタンを押すと変換を始めるというモードを用意しました。このときファイルを与えなければ、設定ウィンドウで設定だけを決めることになります。

設定ウィンドウでは、設定に名前をつけて登録できるようにしました。これで設定の利用がかなり楽になります。サンプルの設定として、英語男声というのを入れてあります。こんなふうに目的別に設定を使い分けます。「高音質wav出力」とか、「高速音読」とか、必要に応じて名前をつけて登録して使ってください。

このサンプルで分かるように、このaozoraVoiceは青空文庫だけに限定せず、テキストを音声ファイルへ変換する汎用的なソフトとしても使えます。「プロジェクト・グーテンベルグ」から英文ファイルを持ってきて、読ませるという利用もできます。作品にこだわる必要はありません。テキストファイルさえ作れば何でも読ませられます。

ただ現在、ひとつ問題があります。それはアクセント記号がついたアルファベットなど、日本語環境で文字化けしてしまう文字は、文字化けしたままで読み飛ばされてしまうということです。英文の場合は、ほとんど問題はありませんが、フランス語の音声にフランス語で書かれた文章を読ませようとすると読み飛ばしが連発します。原因は分かっているのですぐに解決できると思いますが。。。
今のところそういう問題を抱えています。

9/26追記
文字セットを切り替える機能を付けて解決できました。これでグーテンベルグ・プロジェクトの文書でもなんでも読めます。いろんな言語の音声を持っていないといけませんが。

スクリプトのこととか、もっといろいろ書いておきたいですが、今回はこれまで。

ダウンロードは次のリンク先で
AozoraVoice - T's 開発室


posted by takayan at 02:58 | Comment(21) | TrackBack(0) | aozoraVoice | このブログの読者になる | 更新情報をチェックする

2008年09月26日

コメントできない!

どういうわけか二日ぐらい前から、自分のブログにコメントができなくなっている。どうしてだろう。ブラウザ変えたり、いろいろ試してみてもだめだった。

そういうわけで、aさんへの返事をここに書いておきます。

まず、この 2008年09月24日 20:02 の投稿への返事
http://neu101.seesaa.net/article/105435238.html#comment

そうだったんですか、推薦ありがとうございます。

さて、2Gの壁の方ですが、これは音声ファイルの内部構造に由来する限界なので、真っ当なやり方ではこれを越えることはできないはずです。その上、開発言語がJScriptですから、それほど複雑なこともできません。

でも、それだと面白くないので、ちょっと考えてみると、とりあえず分割出力をして、それをあとから別なソフトで結合すればいいはずです。

どこかから、コマンドラインで使える、結合後のサイズが4Gまで対応しているWAV結合ソフトを探してくればいいです。ただ、ちょっと探してみましたが、残念ながら見つかりませんでした。


そして、次の2008年09月25日 23:01投稿のコメントへの返事
http://neu101.seesaa.net/article/107099536.html#comment

要望ありがとうございます。

このソフトの開発に時間がとられて、自分自身が使う時間が無くなってしまっている状態です。自分でやるのは動作確認テストくらいです。設定フィールドの順番は見直さないといけないなというのは思っているのですが、あまり移動しまくるのもいけないので、一段落ついて、自分で使い込んでみて決めてみようと思います。基本的に思考の流れに沿った方がいいので、そのアイデアに近いものになると思います。

ファイル分割ですが、これは考えなくもなかったのですが、テキスト出力で分割点を確認するのに使えるので残しています。音声ファイルに出力しない、テキストファイルに出力しないが同時になるときは、分割をオフにしてもいいのですが、それは設定として有り得ない組み合わせなので、わざわざオフにする仕掛けはつけませんでした。

設定に関しては、今までの方針とは大きく変わっています。説明が不十分ですみませんでした。config.txtを書き出す操作は<対象と同じフォルダにある設定>に登録するとできるはずです。それから、古いconfig.txtを<対象と同じフォルダにある設定>で読み込んで、<対象と同じフォルダにある設定>に現在の設定を登録すると、config.txtの項目が新しく追加されたものができます。最新のconfig.txtにはcharsetプロパティを追加してあるのですが、これがないconfig.txtにこの更新操作をおこなうと、このcharsetが追加されたものになるはずです。

メッセージに関しては、とりあえず、邪魔なときは閉じるボタンで消してください。設定する項目はできるだけ少ない方がいいと思ってスイッチを付けなかったのですが、次回から付けるようにします。


そんなわけです。今度のコメントへの返事はコメント機能が元に戻ってからにします。


posted by takayan at 02:18 | Comment(4) | TrackBack(0) | 日記・未分類 | このブログの読者になる | 更新情報をチェックする

2008年09月28日

フランス語の音声ファイルを作ってみる

この記事は古い情報です。
現在、aozoravoice2は無料の各国語音声エンジンが使えるMicrosoft Speech Platform に対応しています。
詳しくは、aozoraVoice2をMicrosoft Speech Platformに対応させました。をご覧ください。
2011/12/03
追記終わり


今作ってるaozoraVoice2は、テキストファイルから音声合成ファイルを作るソフト。
つまり、原稿を渡すと自動的にそれを朗読して録音してくれるソフト。もちろん喋ってくれるのはコンピュータにインストールしている合成音声。

ダウンロード先:aozoravoice2

名前からして、青空文庫のテキストを読ませるためのものなんですけれど、折角だからいろんな言語で読めるようにならないかなということで、現在バージョンでは音声エンジンさえ持っていれば、いろんな言語で録音可能にしました。

サンプルを用意しました。
音声ファイル:Le Rouge et le Noir.mp3

これは、スタンダールの「赤と黒」の原文です。冒頭のほんの少しだけですけど。
原文は、プロジェクト・グーテンベルグから引用。下記リンクの第8版を利用。
Le Rouge et Le Noir by Stendhal - Project Gutenberg


設定は次のものを利用。もともと青空文庫用のソフトだから、この変換で使っていない設定がいろいろくっついていて変だけど。
// aozoravoice2 設定ファイル
{
"ruby_mode" : 0,
"ruby_mode2" : 0,
"commentout_flag" : true,
"global_replace_flag" : false,
"local_replace_flag" : false,
"divide_flag" : false,
"numbering_mode" : 2,
"keta" : 3,
"limit" : 5000,
"lame_flag" : true,
"lameoptions" : "--preset cbr 128",
"about_symbol_remove_flag" : true,
"tag_remove_flag" : false,
"donoji_flag" : false,
"donoji_equal_flag" : true,
"donoji_multi_flag" : true,
"donoji_part_flag" : true,
"kunoji_flag" : false,
"kunoji_string" : "[繰り返し]",
"gunoji_string" : "[繰り返し]",
"ichinoji_flag" : false,
"speakout_flag" : true,
"textout_flag" : true,
"textinfo_flag" : false,
"voice_name" : "ScanSoft Virginie_Full_22kHz",
"format" : 22,
"level" : 80,
"speed" : 0,
"target_flag" : false,
"charset" : "ISO-8859-1",
"delete_wav_flag" : true,
"message_flag" : true,
"" : ""
}
エンコードが「ISO-8859-1」のファイルをメモ帳などで開くと、アクセント記号が文字化けして正しく表示できません。日本語でよく使われるShift_JISエンコードのまま開いて変換すると、フランス語の音声を使っても文字化けのまま読んでしまいます。しかし、上記のように aozoraVoice2 の設定でcharsetを正しく設定すると、正しい音声が出てくるようになります。

この設定にはテキストを出力する機能もオンにしています。出力されるのはUNICODE (UTF-16) の文書です。今回のaozoraVoice2.3.3から出力ファイルをこのUNICODEに切り替えました。切り替えた理由はもちろんいろんな言語の文字を表示させるためです。WindowsXP標準のテキストエディタ「メモ帳」だとちゃんと、UNICOEとして開いてくれて、アクセント記号も表示できるはずです。

TextAloudも前から持って使ってましたが、ISO-8859-1のファイルから直接変換するのは難しかったはずです。僕はいったんテキストをWebブラウザで開いて、それをコピペしてました。

この音声変換を実行するためには、「ScanSoft Virginie_Full_22kHz」というフランス語の音声合成が入っていないといけません。今回はICレコーダの付属ソフトを利用しました。RR-US470付属のVoice Editing Ver.2.0 Premium Editionをインストールすると、九ヶ国語(日本語、英語、中国語、フランス語、ドイツ語、スペイン語、イタリア語、韓国語、ロシア語)の音声合成が使えるようになります。


関連記事:takayanの雑記帳: WindowsXPにSAPI5音声を入れるには



posted by takayan at 11:03 | Comment(0) | TrackBack(0) | aozoraVoice | このブログの読者になる | 更新情報をチェックする

2008年09月29日

「だんだん」放送開始、「純情きらり」再放送開始

先週末で「瞳」が終わり、今日から「だんだん」が始まった。
「ちりとてちん」が良すぎたせいもあるけれど、ちょっと「瞳」は見るのがつらかった。とはいいつつも、最後までちゃんと見てしまったけれど。

今日の「だんだん」の初回、いい感じだった。離ればなれの双子という設定は、ありがちの展開なんだろうけど朝ドラらしいいい雰囲気だった。分割画面は違和感あったけど。主題歌だけでなくナレーションまで竹内まりやさんだったんだ。このナレーションはとてもよかった。

さて、「だんだん」が始まった今日は、「純情きらり」の再放送も始まる。チャンネルは、BS-hi。時間は夜の7時45分。

NHK番組表
http://cgi4.nhk.or.jp/hensei/program/p.cgi?area=001&date=2008-09-29&ch=10&eid=14666

「純情きらり」はよかった。後半はこのブログにもあらすじや感想を書いていた。書くことで、いろいろ細かいことにも気がついて、より一層物語を楽しむことができた。あまりにも、のめり込みすぎたので、ドラマが終了した後しばらく喪失感を感じてしまうくらいだった。

この投稿を読む人で純情きらりが初見の人もいるかもしれないので詳しく書かないけれど、愛憎もののドラマも書く脚本家だから、純情なヒロインの物語も一癖あって、中盤なかなか面白い展開だった。

「純情きらり」の最初の週は、お父さんとの大切な思い出を築いていく話で、総集編ではばっさり端折られたけれども、桜子をずっと支えてくれたお父さんの存在を印象づける、いい話だった。


posted by takayan at 18:31 | Comment(2) | TrackBack(0) | 純情きらり | このブログの読者になる | 更新情報をチェックする
×

この広告は90日以上新しい記事の投稿がないブログに表示されております。