正規表現で青空文庫のルビを削除
青空文庫を携帯で読もうとしてXHTMLファイルを開き文章をコピペすると、
ある日の暮方の事である。一人の下人(げにん)が、羅生門(らしょうもん)の下で雨やみを待っていた。
という具合にルビが丸括弧に括られて表示される。
また、当然ながら、ルビありのテキストファイルをダウンロードしても、
ある日の暮方の事である。一人の下人《げにん》が、羅生門《らしょうもん》の下で雨やみを待っていた。
と、二重山括弧で括られたルビが表示される。
……邪魔だ。
ルビなしテキストファイルがあれば良いけど、ルビありしかない場合が殆どなので、そんな時には自分で取り除く必要がある。
ソフトを使ってもいいけど、使いたくない場合、正規表現使用可能なエディタ*1があれば、空文字列と置換することで手軽に削除できる。
丸括弧で括られた範囲を選択したい場合は、
([^)]+)
二重山括弧なら、
《[^》]+》
となる。赤文字が任意。
偉そうに言っておいて実はここのをそのまま使ってるだけなのだが、まぁ、
[^》] ⇒「》」以外の文字を、
+ ⇒一文字以上含む、
「《」から「》」まで。ということだ。
ところで、あたかも誰かの為に書いているかのように見えるこの記事は、実は自分用メモだ。
だって正規表現なんて日々使ってでもない限り忘れちゃうんだもん!
そも、青空文庫を携帯で読む際にわざわざルビを削除しようという人などそうはおるまいて。