正規表現

くらい通読して出直してから議論してくれよ。でなきゃこんなやりとり無駄だよ。
いや、煽りじゃなくてマジでさ。

： 名無しさん＠お腹いっぱい。 [sage] NGNG

の本って目次だけ見ると各ツールの「実装」について述べてる
みたいだけど、正しい「定義」については載ってるの?

： 名無しさん＠お腹いっぱい。 [sage] NGNG

規格としては POSIX 1003.2 があるけど、
正しい定義なんてものはないと思う。

： 名無しさん＠お腹いっぱい。 [sage] NGNG

>>62

『正しい「定義」』なんてないんだからおまいらの議論は不毛だって言ってんの。
中途半端な知識と思い込みだけの虚しい空論だよ。

： 名無しさん＠お腹いっぱい。 [sage] NGNG

>>62

たしかに目次には各ツールの実装についての記述が目立つ。
だが、この本のキモは4章と5章だ。
君が正規表現をある程度自在に扱えるのであれば、
この二つの章を読むだけでも価値はある。
とりあえず話はそれからだ、と思うぞ。

： 名無しさん＠お腹いっぱい。 [sage] NGNG

文字クラス中の - が文字コードでの連続を表すか文字としての連続を表すかは実装依存です、
で終了。

： 62 [] NGNG

>>63-65

いや、

>>66

の言うように実装依存だと思ってたから、
正しい「定義」が載ってるなら、読んどこうかと思ったんですが。

の発言を(それまでの流れと併せて)読むと、さも載ってそうなんですが、
目次見たら(-_-)ぁゃιぃ…だったので。

： 名無しさん＠お腹いっぱい。 [sage] NGNG

ttp://www.opengroup.org/onlinepubs/007904975/basedefs/xbd_chap09.html
規格が「正しい」かどうかは別として…

： 名無しさん＠お腹いっぱい。 [sage] NGNG

正規表現の定義ねぇ。どうもどこかの団体がきっちりまとめた規格
のような「定義」を期待してるようだが、このあたりのハナシは計算
機科学色が強いから定義など教科書の数だけある、と言ってみるﾃｽﾂ。
本質はみな同じのはずだけどナ。
しかも見慣れぬ数学記号飛び交う抽象的な議論になるから、
オライリー本で充足しているヤシにはカルチャーショックだろう。
大学の図書館でも逝け。

： 61 [sage] NGNG

の発言を(それまでの流れと併せて)読むと、さも載ってそうなんですが、
> 目次見たら(-_-)ぁゃιぃ…だったので。

漏れの発言を勝手な解釈すんなよ。
正しい「定義」なんて載ってるわけないだろ。正しい「定義」なんてないんだから。

： 61 [sage] NGNG

ていうかあれだ、「定義」の話じゃなくて「規格」の話をしたいのか？

「定義」の話なら、

>>69

の言うように、
計算機科学（の世界だと「正則表現」の方が通りが良いか？）の本でも
紐解いて読んでみるのが良いと思う。

そうでなくて、単に、
文字列バターンマッチに使われる「正規表現」の正しい「規格」の話、
ってことなら、そんなものは無い。
強いて言えば、

>>68

くらい。

： 名無しさん＠お腹いっぱい。 [sage] NGNG

「定義」=「決め」でしょ。
その場その場で都合のいいように「定義」するわけだから
「正しい『定義』」なんてのはあるわけがない。

： 名無しさん＠お腹いっぱい。 [sage] NGNG

じゃ、まずは「正しい」の定義から始めようか。

： 61 [sage] NGNG

というわけで、このスレは、「ホップクロフト&ウルマンを輪読するスレ」になりますた。

： 62 [sage] NGNG

規格として[a-z]の解釈について正しい定義はあるのか?
っていう議論中に、「ｺﾚ読め」と言われたら載ってるように
見えても仕方ないと思うんですがねぇ。

「

に載ってないから無い」、とは言えんでしょ。
何の為に読めと言ったのか聞いてよろしい?

： 名無しさん＠お腹いっぱい。 [sage] NGNG

POSIX 1003.2 に厳密に従っていればこれにある通り。
外部リンク

ttp://www.linux.or.jp/JM/html/LDP_man-pages/man7/regex.7.html

が、世にある実装は大抵そうでない。

： 名無しさん＠お腹いっぱい。 [sage] NGNG

>>76

見た感じ、EBDICでもロケールが英語なら[a-z]は
英小文字のセットとして評価されるべきみたいですな。

： 名無しさん＠お腹いっぱい。 [sage] NGNG

>>75

全く違う。
そもそも君の話は正しい定義がこの世に存在する事を
前提としている。しかし実際はそのようなものは
ないわけだ。（「正しい」の意味が私の考えている
ものと違うならわからないが）
そのことを理解するために（というか議論のための
基礎知識を得るために）読んでおくべきと 61 は
言いたかったのだと勝手に解釈してみる。

厳密な定義という意味で正しいと言っているなら
計算機科学の教科書をひもといてみるといいかもなあ。

： 名無しさん＠お腹いっぱい。 [sage] NGNG

>75
そんなマヌケな話を避けられるようになるよ、
とそういう意味で勧めてくだすったんだろう。

： 75 [sage] NGNG

>>78

>そもそも君の話は正しい定義がこの世に存在する事を前提としている。
ｼﾃﾈｰﾖ。

つーか著名ﾂｰﾙの実装に関する本を読んだ所で、
[a-z]の解釈は～という議論に決着つくのですか。

1-60までのｽﾚの流れと、

の勧めた

の内容を
良く見てから出直して下さい。

>>78

,79

： 名無しさん＠お腹いっぱい。 [sage] NGNG

取り合えず読んでみる、と言う選択肢は
意図的に無視されているのだろうか…

： 名無しさん＠お腹いっぱい。 [sage] NGNG

もともと [a-z] なんていう表記は、素な正規表現/正則言語にはない。
でもそれじゃ面倒だから - で繋いだ2つの文字の間の文字群を略記する方法が、
及び実装としては単に文字コードを繋ぐ方法がデファクトスタンダードになった。
それを勘違いしたバカが [a-z] は論理的なアルファベットを意味すべきだとか言い始めて
[[:alpha:]] や \l やら \a が導入されるようになったり、変な挙動をする実装もでてきたかもしれん。
でここでPOSIXなんて有名無実なものが定義されたわけだ。
なのにさらにバカが [a-z] の正しい解釈、定義を教えろとかいう。

やれやれだ。

： 名無しさん＠お腹いっぱい。 [sage] NGNG

ここは62=75の脳内正規表現を研究するスレになりますた。

# 素直に勉強してから出直せばいいのに。。。

： 62=75 [sage] NGNG

>>82

やれやれとはこっちが言いたい。
[a-z]の解釈が文字コード依存なのは承知済みだっつーの。

のタイミングで論議を不毛と評しつつ、正規表現の本読めと
言われたら、規格か何かが載ってるとしか思えんでしょうが。
著名ﾂｰﾙの実装見たところで、議論の不毛を悟れますか?

： 名無しさん＠お腹いっぱい。 [sage] NGNG

少なくとも読めば実装により異なることは察することができたかもね

： 名無しさん＠お腹いっぱい。 [sage] NGNG

規格自体を読みたいなら68にリンクがあるし、なんでそう粘着してるんだろうか

： 名無しさん＠お腹いっぱい。 [sage] NGNG

なぜに著名ツールの実装しか載っていないと決めつけ
勝手な解釈で話を進めるのだろう？
とにかくおかしな前提と曲解が多い上に粘着だ。

： 名無しさん＠お腹いっぱい。 [sage] NGNG

もう放置しようよ……。

： 名無しさん＠お腹いっぱい。 [sage] NGNG

非放置国家 2ch

： 名無しさん＠お腹いっぱい。 [sage] NGNG

>>87

決め付けてませんが。

>>62

で実装以外の内容(具体的に規格など)は
載って無いかと聞いてるんだし。

おかしな前提・曲解・粘着は認めますがね。
で、偉そうに読めとか言った

は何処逝ったの?

： 名無しさん＠お腹いっぱい。 [sage] NGNG

>>90

> で、偉そうに読めとか言った

は何処逝ったの?
読んだら出てくるんじゃねーの?

： 90 [sage] NGNG

とっくの昔に読んでいるんだが…
(立ち読みでざっとだけど)

： 名無しさん＠お腹いっぱい。 [sage] NGNG

形式言語系の本は読んだのかYO!

： 名無しさん＠お腹いっぱい。 [sage] NGNG

>>92

そんなの読んだうちに入らん。

： 名無しさん＠お腹いっぱい。 [sage] NGNG

理屈が通用すると勘違いせず、粘着は放置しましょう

： 名無しさん＠お腹いっぱい。 [sage] NGNG

腹が減ってるもんで
こんなのでも食いついてしまうんです。

： 名無しさん＠お腹いっぱい。 [sage] NGNG

>>90

君が何を知りたいのか、
おじさんわかんなくなっちゃったよ。
ここらでひとまず
疑問点を整理して箇条書きにしてみないか?

： 名無しさん＠お腹いっぱい。 [sage] NGNG

技術系の本を立ち読みしただけで読んだ気になれる人には
何を言っても無駄ではなかろうか。

： 山崎渉 [（＾＾）] NGNG

（＾＾）

100

： あぼーん [あぼーん] NGNG

あぼーん

101

： 名無しさん＠お腹いっぱい。 [age] NGNG

『詳説正規表現　第2版』
ISBN4-87311-130-7
本体価格5,400円

が5月に

102

： あぼーん [あぼーん] NGNG

あぼーん

103

： 名無しさん＠お腹いっぱい。 [sage] NGNG

>>101

おっ。
ソースどこ？

104

： 名無しさん＠お腹いっぱい。 [sage] NGNG

定義うんぬんよりも、便利な方がいい。

というわけで、

(?# (?: (?= (?! (?<= (?<! (?> (?()

105

： 名無しさん＠お腹いっぱい。 [age] NGNG

>>103

オライリーのメルマガ

106

： 名無しさん＠お腹いっぱい。 [] NGNG

正規表現（regular expression）の名前の由来はなに？
regularをなぜ正規と略したんだろう？
「正式にきめられていること。正式の規定」という意味の正規では
幾分意味不明なんじゃないだろうか？
むしろregular verb（規則動詞）の意味のregularと捉えるべきで、
「規則表現(法or式)」とでもした方が文字列の規則性を規則的に表現するもの
という意味でより素直で的確なんじゃないだろうか。
ここにはnormal distributionを正規分布と略し日本語としては
意味不明にしてしまったのと同様のセンスの無さが感じられる。

107

： 名無しさん＠お腹いっぱい。 [sage] NGNG

「function」を「関数」と訳すアフォといっしょだろ。

108

： 名無しさん＠お腹いっぱい。 [] NGNG

regular に合うような日本語単語を考えると
正規、正則、規則、規律、規則的、整然、合式、本格的、定常、完全、定例
などが挙げられる。
正規に違和感を感じるのは同意。
ただし、規則だと regular より rule の方を感じる。

regular expression を長々と訳すならばオレテキには
規則正しい表現法
となるが、あとはそれをどのように短くするかだ。
正規表現には違和感あるが
規則表現にはさらに違和感ある。
規則正しい生活を規則生活と省略するのに似ている。

109

： あぼーん [あぼーん] NGNG

あぼーん

110

： 名無しさん＠お腹いっぱい。 [age] NGNG

わたしは特に違和感ない。

複数の体系の共通項的要素を抽出して、どれをもあつかえる
単一の体系にまとめることをCS的に正規化というでは?

111

： 名無しさん＠お腹いっぱい。 [sage] NGNG

正則表現といわれたほうがシックリするわ。

112

： 名無しさん＠お腹いっぱい。 [sage] NGNG

>>107

「函数」が正解、という主張ならそれは翻訳の問題ではなく
日本の戦後国語教育の問題なわけだが

113

： 107 [sage] NGNG

>>112

> 「函数」が正解、という主張なら
違う。

114

： 名無しさん＠お腹いっぱい。 [sage] NGNG

>>113

それならそれで108なみ詳細な解説きぼんぬ

115

： 113 [sage] NGNG

>>114

> それならそれで108なみ詳細な解説きぼんぬ
どきっ!!
い、いやぁ、「function」は普通に訳したら「機能」じゃないかなぁ～、
なんて思うので。
なんで、「関数」になったのか疑問なので。
やっぱり、かっこいいからかなぁ。

116

： 名無しさん＠お腹いっぱい。 [sage] NGNG

数学方面なら「正則」とするところなのに、情報数学方面では「正規」の方が
定着しているということなのか?

>>115

数学で既に訳語があったからという単純な話なんでは。函数→関数の
書き換えはまた別の話だが。古い先生だと「関数」の表記を絶対使わない人
もいるね。自分も函数の方がいいと思う

117

： 名無しさん＠お腹いっぱい。 [sage] NGNG

中国語が英語から「function」という英単語を輸入するとき
それを「函数」と翻訳した。
函は中国語で「ファン」と発音し「function」の「ファン」に似ているところからきている。
そのあと日本は中国から「函数」という言葉を漢字で記述された文字として輸入した。
そして「函」を「カン」と発音した。
戦後の日本の教育において「函」が教育仕様内の標準的漢字から外れるという理由から
およそ同義で同音の「関」に置き換えられた。

すなわち「function」の「fun」を元にしてその部分は
以下の経緯で「関」に変わった。
英語の「fun」
↓発音の類似性から
中国語の「函」(ファン)
↓同じ文字
日本語の「函」(カン)
↓発音の類似性から
日本語の「関」(カン)

こういう改変に次ぐ改変で「関数」という言葉が生まれた。
もはや「関数」という言葉にはそう表現する適切な理由がない。
情報系の技術屋なら「function」ないし「ファンクション」
と表現すれば良いのだ。どうしても漢字で書きたければ「機能」で良し。
「関数」だなんていい加減な言葉を使うなら
「class」を「学級」とでも表現してくれた方がまだましと言えよう。

118

： 名無しさん＠お腹いっぱい。 [sage] NGNG

函(はこ)の数と意味も掛けてあるから、やはり捨て難い訳ではある

119

： 名無しさん＠お腹いっぱい。 [age] NGNG

>>118

classは「級」でいいはずだけど、「きゅう」ではみじかすぎて
わからんからそのまま「くらす」。

120

： 名無しさん＠お腹いっぱい。 [sage] NGNG

くらす、きさん！！

121

： 名無しさん＠お腹いっぱい。 [sage] NGNG

もう「関数」で慣れちゃってるからなぁ。
「機能」と訳したところで
意味がわかりやすくなるわけでもないし。

「正規表現」にしても「関数」にしても
おれにとってはある概念に対するラベルでしかない。

122

： 名無しさん＠お腹いっぱい。 [sage] NGNG

「関数」は一つの名詞なので、
一旦覚えてしまえば
「関数」という訳について不自然さは感じにくい。

でも「正規表現」は「正規」と「表現」の複合語であるから、
正規な表現? という意味不明さはいつまでも残る。

123

： 名無しさん＠お腹いっぱい。 [sage] NGNG

"regular expression" というからには
regular じゃない expression もあるんでしょうか?
たとえばどんなのですか?

124

： 名無しさん＠お腹いっぱい。 [sage] NGNG

>>123

fgrepに書く検索パターン

125

： 名無しさん＠お腹いっぱい。 [sage] NGNG

>>115

プログラミング用語での function は単なる「機能」ではなく、
数学的な(値を返す) function としてのニュアンスが込められているんじゃ
ないのかなあ?

関数型言語ではいうに及ばず、FORTRAN とかでもそんな感じだし、
C だってもともと void 型なんてないし。

# 正規表現と関係ないので sage

126

： 名無しさん＠お腹いっぱい。 [sage] NGNG

「機能」も造語っぽくない?
明治あたりの。

127

： 名無しさん＠お腹いっぱい。 [sage] NGNG

関数が函数の書き換えだと知ったとき、小学校の算数の時間で関数の
説明に「ブラックボックス」という言葉を使っていたのを思い出した。
この書き換えは最悪だと思ったな。

しかし、いくら原語が同じだとしても、関数と機能は日本語としては完全に
別物になってしまっている。function key の function は、やはり「機能」の
意味でないと落ち着かない。

>>122

「正則」は、ほとんど術語としてでしか使われることがないけど、「正規」は
普通の文章でも使われるからね。「正規」と「表現」の結び付きが強くなって
しまう。

128

： 名無しさん＠お腹いっぱい。 [sage] NGNG

expression にしても、「式」とも訳される場合もあって悩ましいことこの上なし

129

： 名無しさん＠お腹いっぱい。 [sage] NGNG

じつは日本語って、語彙が豊富？
まぁ、ほとんど訳語だけど。。。

130

： 名無しさん＠お腹いっぱい。 [sage] NGNG

>>127

> function key の function は、やはり「機能」の意味でないと落ち着かない。

それは「function key」を「関数キー」と読んでる人に言ってくれ。いるのか?

Google で検索しても 163 件しかない上に、関数電卓の「関数キー」
(sin 関数のキーとか) だの「ハッシュ関数のキー」だのばっかりなのだが。

131

： 名無しさん＠お腹いっぱい。 [sage] NGNG

「ファンクションキー」と言ってるのしか聞いたことがないが、この「ファンクション」
は「機能」の意味でないと落ち着かないと言ってるだけだ

132

： 名無しさん＠お腹いっぱい。 [sage] NGNG

>>129

自国語で数学的概念を表現できる国は少ないほうだと思われ。
微分、積分、階乗、無理数、有理数、etc...
functionに対する訳で機能と函数で揉めるのは贅沢なことなんじゃないのかなぁ……
ていうか、算数、数学の教科書が日本語だけで完結できること自体、
ほかの国から見ると不思議なことなんじゃないの？

133

： 名無しさん＠お腹いっぱい。 [sage] NGNG

何の話をしてるんだか・・・

134

： 名無しさん＠お腹いっぱい。 [sage] NGNG

では、日本における性器表現についてどうぞ
↓

135

： 名無しさん＠お腹いっぱい。 [sage] NGNG

[まち]んこ

136

： 名無しさん＠お腹いっぱい。 [sage] NGNG

$藁田\|ﾜ[ﾛﾗ]ﾀ$

137

： 名無しさん＠お腹いっぱい。 [sage] NGNG

>>135

>>136

こういう日本語の正規表現の使える実装にはどんなのがありますか？

Ruby, 鬼車, jperl, xyzzy, Emacs, あたりは使えると思うけど、ほかには？

138

： 名無しさん@Vim%Chalice [sage] NGNG

Vim

139

： 名無しさん＠お腹いっぱい。 [yosage] NGNG

perlとかなら
/(ma|chi)nko/i
みたいに i オプションつけることで
大文字小文字を同一視してくれる機能が一般的に普及してますね。
grepとか大抵の性器表現できるツールにはあるみたい。

そこでほしいのが平仮名片仮名同一視。
/[まち][んむ]こ/i
とすれば「マむコ」にも「チンこ」にもマッチしてほしいわけ。
そういう機能がついた性器表現ってどういうツールにございますか？
あと
/ベートーヴェン/i
で検索したら
「ベートーベン」や「べえとおべん」にもマッチしてくれる
ようなのもあるものでしょうか？

140

： 名無しさん＠お腹いっぱい。 [sage] NGNG

後者は正規表現の範疇ではないような。
前者はあってもよさそうだね。

141

： 名無しさん＠お腹いっぱい。 [sage] NGNG

文字クラスの拡張でしょうか

142

： 名無しさん＠お腹いっぱい。 [sage] NGNG

>>141

日本語用文字クラスってわけね。
しかしそんな日本でしか使えないもんはツールで対応すべきだな。

>/ベートーヴェン/i
>で検索したら
>「ベートーベン」や「べえとおべん」にもマッチしてくれる

こんなん正規でも正則でもない非正規表現だ。

は正規表現使うのやめた方が幸せになれそうだよ。

143

： 名無しさん＠お腹いっぱい。 [sage] NGNG

Migemoの辞書をカスタマイズすればできるようになるよ

144

： 名無しさん＠お腹いっぱい。 [sage] NGNG

>>143

そういう問題じゃなかろう・・・

145

： 名無しさん＠お腹いっぱい。 [sage] NGNG

日本語正規表現の使える実装は Ruby, 鬼車, jperl, xyzzy, Emacs, Vim で全てですね？

146

： 名無しさん＠お腹いっぱい。 [sage] NGNG

>>145

いいえ。

147

： 名無しさん＠お腹いっぱい。 [sage] NGNG

文字クラスとか自分で設定できる正規表現みたいなのが
あればいいんじゃないの。
どうせ perl だって場あたり的に好きなように拡張してるんだから。

148

： 名無しさん＠悩み中 [] NGNG

sed ですが、
[[:xdigit:]]\{2\} にマッチする文字列のなかで、
$61\|75\|6f$ にマッチしないようなものを指定したいとき
どないすればよろしい？

149

： 148 [] NGNG

やっぱり、先に $61\|75\|6f$ にマッチする奴を退避しておいてから、
[[:xdigit:]]\{2\} にマッチするやつを指定するしかないんかな…

150

： 名無しさん＠お腹いっぱい。 [sage] NGNG

誰か、正規表現だけで会話するスレ作ってくれ。

151

： 名無しさん＠お腹いっぱい。 [sage] NGNG

/いったい何を会話するというのだ/

152

： 名無しさん＠お腹いっぱい。 [sage] NGNG

それこそ言いだしっぺの法則だろ。正規表現だけで会話したい

が立てれ。

153

： 名無しさん＠お腹いっぱい。 [sage] NGNG

駄スレ立てんな。

154

： 名無しさん＠Ｍｅａｄｏｗ [sage] NGNG

>>153

$mes153 =~ s/。//;
reverse(split(//, $mes153));
わかた？
結果は、「なんてつたレスだ」

155

： 名無しさん＠お腹いっぱい。 [] NGNG

>>154

こうなりますた。
$ perl -e 'quotemeta($var='駄スレ立てんな。'); print reverse(split(//,$var));'
B∧んてぉ洛スμ・

156

： 名無しさん＠お腹いっぱい。 [sage] NGNG

名スレの予感

157

： 名無しさん＠Ｍｅａｄｏｗ [sage] NGNG

>>155

jperlじゃないとだめですね。perl用もかきますた。

($var='駄スレ立てんな。') =~ s/立(.+)。/たつ$1/;
while ($var) {
if ($var =~ s/^[\xA1-\xFE][\xA1-\xFE]// or $var =~ s/^.//) {
push(@str, $&);
$var = $';
}
}
print reverse(@str), "\n";

158

： 名無しさん＠お腹いっぱい。 [] NGNG

>>156

2chですから、性器表現とこれを用いた強制痴漢ならあちこちに。

159

： 名無しさん＠お腹いっぱい。 [sage] NGNG

\hなのはいけないと思います!

160

： 名無しさん＠お腹いっぱい。 [sage] NGNG

\SM(?:性器拡張(?!器具))

161

： 名無しさん＠Ｍｅａｄｏｗ [sage] NGNG

>>157

何やってんだろな、漏れ。
($var='駄スレ立てんな。') =~ s/立(.+)。/たつ$1/;
while ($var =~ s/^[\xA1-\xFE][\xA1-\xFE]// or $var =~ s/^.//) {
　push(@str, $&);
}
print reverse(@str), "\n";
で十分だった。この全角文字対応の正規表現は、euc-jpの奴ね。
でもさ、やっぱ正規表現で会話するってむずいよ。

よ。

162

： 名無しさん＠お腹いっぱい。 [s/つーか全角空白使ってる時点でダメダメ/sage/;] NGNG

print while s//

>>161

普通過ぎてつまらん/;

163

： 名無しさん＠お腹いっぱい。 [sage] NGNG

>>161

それは正規表現ではなく perl script というのではないだろうか。

164

： 名無しさん＠お腹いっぱい。 [sage] NGNG

>>163

の的確すぎるツッコミに藁。

165

： 名無しさん＠お腹いっぱい。 [sage] NGNG

>>1-164

これら全てが正規表現であることは自明なのであります。

166

： 名無しさん＠お腹いっぱい。 [sage] NGNG

Perl正規表現の質問です。

Ascii文字コードは、アルファベット大文字→ちょこっと記号類→アルファベッ
ト小文字の順に並んでるですが、以下のようになるのはなぜですか。なぜ、ア
ルファベット大文字しか出てこない？

$ perl -e 'for(A .. z) {print $_, ", ";}'
A, B, C, D, E, F, G, H, I, J, K, L, M, N, O, P, Q, R, S, T, U, V, W, X, Y, Z,

167

： 名無しさん＠お腹いっぱい。 [] NGNG

>>166

駱駝本（第二版）の p.103 の脚注 *32 に、

> もし指定された最終値が、マジックによる増加によっては生成できない
> ような値なら、最終値のケタ数を超えない範囲で値を生成する。

と書いてあるけど、違う？

168

： 名無しさん＠Ｍｅａｄｏｗ [sage] NGNG

>>167

ありがとん。
>マジックによる増加によっては生成できない

というのが分からなかったので、駱駝本（第３版）引いたら、「マジックイン
クリメント：普通の数値と同じようにして、英数字からなる文字列の値に「１
を加える」方法を知っているインクリメント演算子のこと。」だって。Aは、
16進数で41、Zは、5A。5B以下60までは、[、\, ], ^, _, `で、61から小文字。
一つずつインクリメントされて並んでいるが、できないところを見ると、「英
数字からなる文字列」だけをサポートしている演算子なんだね。

第２版の103ページにあたる121ページあたりにも、A .. Zやa .. zの例はある
けど、A .. zはない。

169

： 名無しさん＠お腹いっぱい。 [sage] NGNG

文字のインクリメントもちゃんと桁上げされるんよ。

#perl > result.txt
$a = "a";
print ++$a, "\n" while (length $a < 3);

170

： 169 [sage] NGNG

あ、これじゃ for (A..Z) の説明にはならないな。

171

： 名無しさん＠お腹いっぱい。 [sage] NGNG

>>166

全然正規表現じゃなかった・・・。

172

： 名無しさん＠お腹いっぱい。 [sage] NGNG

/\x82\xad\x82\xbb\x82\xc1/
sjis

173

： 名無しさん＠お腹いっぱい。 [sage] NGNG

>>172

パターンマッチさせる意味は？

174

： 名無しさん＠お腹いっぱい。 [sage] NGNG

>>172

1) ネタがないから
2) わし166だので、172に揶揄されて「くそっ」と

175

： 名無しさん＠お腹いっぱい。 [sage] NGNG

ちがった、171にバカにされて・・・
　　　　　　~~~

176

： 名無しさん＠お腹いっぱい。 [sage] NGNG

おまえらみんな(ち|い|う)んぽ。

177

： 名無しさん＠お腹いっぱい。 [] NGNG

『詳説正規表現』を読んでいるようなエキスパートの人に質問です。

「"a" が偶数個、"b" が奇数個含まれる、すべての文字列を表す正規表現」

って分かりますか？

自分は答えを見てもよく分かりませんでした。

178

： 名無しさん＠お腹いっぱい。 [sage] NGNG

179

： 名無しさん＠お腹いっぱい。 [sage] NGNG

>>177

余裕があれば一度オートマトンに関する本を読んでみて。
外部リンク

ttp://http://www.amazon.co.jp/exec/obidos/ASIN/4320029488/ref=sr_aps_b_1/249-5563000-9397957"> 外部リンク

ttp://www.amazon.co.jp/exec/obidos/ASIN/4320029488/ref=sr_aps_b_1/249-5563000-9397957
の前半はすごくわかりやすいよ。

そこまでしなくても、一度外部リンク

ttp://katsu.watanabe.name/grep/p7.html
みたいな状態遷移図にしてみるといいかも。

180

： 177 [sage] NGNG

自分がこの問題を見たのは古い UNIX MAGAZINE で、内容を簡単に引用しますと …

偶数か奇数かを調べるには文字の数を２で割った余りが０か１かという
決まった２つを調べればよいため、正規文法で記述することが可能。
なお、この文法では a に関して２つ、b に関しても２つの場合があるので、
2 x 2 = 4 つの記号（状態）を用いる。

A → aB　　　B → aA　　　C → aD　　　D → a
A → bC　　　B → bD　　　C → bA　　　D → aC
A → b　　　　　　　　　　　　　　　　 D → bB

状態 A … a が偶数個で b が奇数個の文字列
状態 B … a が奇数個で b が奇数個の文字列
状態 C … a が偶数個で b が偶数個の文字列
状態 D … a が奇数個で b が偶数個の文字列

以上により答えは

((a|b(aa)*ab)(b(aa)*b)*(a|ba(aa)*b)|b(aa)*b)*((a|b(aa)*ab)(b(aa)*b)*ba|b)(aa)*

となる。

正規表現でうまく表現できない問題に当たったときは、いったん正規文法で記述してから
正規表現に変換すると解決できる場合も多い。

181

： 長いので分割。 [sage] NGNG

… だそうです。

果たして↑の長い正規表現が

>>178

さんの答えと同じものを表しているのかどうか
分かりませんけども。

>>179

有用な本と URL の紹介、ありがとうございました。

それにしても最初にパッと見て「この問題は有限個の状態で表せる」って思いつくかなぁ？
不思議だ。

182

： 名無しさん＠お腹いっぱい。 [sage] NGNG

>>181

> それにしても最初にパッと見て「この問題は有限個の状態で表せる」って思いつくかなぁ？
それはパッと見というよりは、冷静に分析してわかるものでしょ。
慣れれば一瞬で分析できるようになるかもしれんけど。

183

： 名無しさん＠お腹いっぱい。 [sage] NGNG

>>178

,180
それは「aとbだけからなる文字列」について?

184

： 名無しさん＠お腹いっぱい。 [sage] NGNG

>>183

んなもん s/[ab]/[^ab]*&/ すりゃ良いだけじゃん

185

： 名無しさん＠お腹いっぱい。 [sage] NGNG

>>184

それって、正気表現でつか？

186

： 名無しさん＠お腹いっぱい。 [sage] NGNG

>>183

のために [^ab]* をはさみまくってたら、

「長すぎる行があります!」

っておこられたよ・・・

187

： 名無しさん＠お腹いっぱい。 [sage] NGNG

188

： 名無しさん＠お腹いっぱい。 [] NGNG

>>187

それで baaabaaab がまっちすんの?

189

： 名無しさん＠お腹いっぱい。 [sage] NGNG

以下のようなデータから、著者の部分（最後の括弧から括弧まで）を
取り除きたいと思います。

木立（こだち）のなかに（夏目弱石）
山の上の芋粥（いもがゆ）（芥川蛇の介）

s/（.+?）$//;

ですとうまくいきません。perl5.6で、文字コードはeucです。
webprog板のPerl初心者スレで聞いたのですが、どうも解決しないのです。
どうしたらよいか教えていただければ幸いです。

190

： 名無しさん＠お腹いっぱい。 [sage] NGNG

>>189

セイキヒョーゲンの問題ではなくパールの問題っぽいですね。
そっちのスレ行った方がよいかも。
できるなら「うまくいきません」を再現させる
できるだけシンプルなコードを添付してほしいな

191

： 名無しさん＠お腹いっぱい。 [sage] NGNG

>>189

プログラム技術板にPerlの質問スレがある。webprogに特化したこと以外はそっ
ちの方がいい。

s/（[^（）]+?）$//;

192

： 名無しさん＠お腹いっぱい。 [sage] NGNG

Perl の正規表現では ( ) は、後で \1, \2, ... にマッチさせるための
メタ表記だから、括弧そのものにマッチさせたければ  と書かなければ
ならない。(egrep や emacs とは逆)

193

： 名無しさん＠お腹いっぱい。 [sage] NGNG

>>190

では、Perlスレ行ってきます。って、unix板にはなかったんで、
プログラム板ですね。ありがとございますた。

194

： 名無しさん＠お腹いっぱい。 [sage] NGNG

あれれ板探してたら、２つもレスが。

>>191

それ、jperlなら動くんでしょうが、perl5.6ではだめでした。

>>192

いや、全角括弧なんです。

195

： 名無しさん＠お腹いっぱい。 [] NGNG

>>192

それは \x28 や \x29 の場合だけでしょう。
今でてきてるのは \xa1\xca と \x1a\xcb。
ちなみにperlの最短一致は
マッチの先頭位置を後ろにずらす効果がないので注意。

($b="abcabc")=~s/b.*?c$//;
print "$b\n"; # output "a"

189の要望はここで"abca"を出してほしいということで叶わない

196

： 189 [sage] NGNG

>>195

＞perlの最短一致は
＞マッチの先頭位置を後ろにずらす効果がない

なるほど。では、

>>189

のコードは、

木立
山の上の芋粥

を出力してもいいはずですが、何も出力しない（何にもマッチしない）んです。
どうしてですか。よろしければ教えてくらさい。

197

： 名無しさん＠お腹いっぱい。 [sage] NGNG

s/(.+)（.+）$/\1/;

198

： 189 [sage] NGNG

>>197

これだと、

木立
山の上の芋粥

になってしまいます。求めているのは、

木立（こだち）のなかに
山の上の芋粥（いもがゆ）

です。

199

： 197 [sage] NGNG

マジ？手元の Perl 5.005_03 だと求めているのになるのだが・・・

200

： 189 [sage] NGNG

>>199

すみませ～ん。
求めているものになりました。いろんなスクリプト混ざり合ってたので
混乱しました。
(.+)が最長一致するから（.+）でいいってことに気づきませんでした。

201

： 名無しさん＠お腹いっぱい。 [sage] NGNG

perlの正規表現と日本語文字列との相性の悪さを
実感する問題だったなあ

202

： 192 [sage] NGNG

本当に全角だったのか。失礼。だとすると、/（/ が EUC の 2 バイト目と
文字に一致するとは限らないので注意。全角文字の 2 バイト目と次の文字の
1 バイト目がそれぞれ \xa1 と [\xca-\xcb] にマッチする場合があるので、
文字列「検便」\b8\a1\xca\xd8 にも「（」がマッチしてしまう。

日本語 EUC の 1 文字にマッチさせたいなら、厳密には
(\x8f?[\xa1-\xfe]{2}|\x8e[\xa1-\xfe]|[\x00-\xff])
にマッチさせなくてはならない。

Perl6 の国際化された正規表現が普及して、こんな知識は不要になって
くれれば一番いいのだが…。

203

： 192 [sage] NGNG

この例の場合、最後の括弧の中は全角ひらがなしか入らないから関係ないけどね。

204

： 名無しさん＠お腹いっぱい。 [sage] NGNG

5.8ならuse utf-8; use Encode;して適切なエンコード指定でファイル読み込ませれば解決するぞ。

205

： 名無しさん＠お腹いっぱい。 [] NGNG

ttp://61.210.205.4/
これなんだろ＠＠＠

206

： 名無しさん＠お腹いっぱい。 [] NGNG

WebProg板の「正規表現道場@2ch Part2」はご存知？
ttp://pc2.2ch.net/test/read.cgi/php/1038146241/

207

： 189 [sage] NGNG

>>206

知ってます。最近、書き込み少ないので、こっちにしました。
あっちでは、以前、いろいろ答えてあげてたんですが。
実は、他のやり方ならいろいろ考え付いたのですが、
s/（.+?）$//;
がなぜだめかが知りたくて質問したのでした。

>>195

だけがその質問に答えてくれました。そいえば、それも
らくだ本で読んだ覚えあったなぁと。しかし、「最短一致がマッ
チの先頭部分を後ろにずらしてくれない」という理由ですと、
なぜ、「木立（こだち）のなかに（夏目弱石）」が、「木立」
にならないか、いまだに不明です。($b="abcabc")=~s/b.*?c$//;
で$bが'a'になるんだから、そうなってもいいはずですよね。

# でも、３つのスレで「()をエスケープしろ」っていう返事をもらったのにも
# びっくり。漏れは、navi2chなので、半角と全角は一目瞭然ですが、IEで見
# てみたら、たしかに女滋養に見えますた。

208

： 名無しさん＠お腹いっぱい。 [sage] NGNG

女滋養(;´Д｀)ﾊｧﾊｧ

209

： 名無しさん＠お腹いっぱい。 [sage] NGNG

生粋のプログラマーなら日常的に半角全角の違いがすぐ分かる環境を望む。
そうじゃない人はあまり気にしないので女痔用に見えても兵器。

210

： 名無しさん＠Ｍｅａｄｏｗ [sage] NGNG

女痔用　(´;。;△;。;)キモ!!!!!!!!!!!!!!!

211

： 名無しさん＠Ｍｅａｄｏｗ [sage] NGNG

>>207

漏れは、navi2chでも迷ったっぞい。

212

： 189=207 [sage] NGNG

>>211

はっきり言っておくんなさい。
たすかに、fontの問題かもすれんですよ。
だかーら、記号類は半角とか全角とか注釈つけとけと…
でもって、半角カタカナなんか問題ない時代になったんだなー、と。

213

： 名無しさん＠お腹いっぱい。 [] NGNG

半角か全角かをいちいち説明されないと違いの分からないような
素人さんにはそもそも質問なんかされてないんですよ

214

： 名無しさん＠お腹いっぱい。 [sage] NGNG

189が意図的に使い分けてるという保証もなかったわけだが。

215

： 名無しさん＠お腹いっぱい。 [sage] NGNG

>>214

はじめから euc と断ってたし、
対象テキストデータとか試しに提示したダメコード片を良く見れば、
意図的に使い分けてることは十分想像できたと思うが。
質問の仕方や内容からも半角全角混同してるようなレベルの質問とは思えなかった。

つうか、

>>207

は何をいまだにハマってるんだ？
s/（.+?）$//; なら「木立」になるから問題なかろう？

216

： 191=214 [sage] NGNG

>>215

一応そう想定して答えた。

217

： 名無しさん＠お腹いっぱい。 [sage] NGNG

>>216

釈迦に説法か。ｽﾏｿ

218

： 189=207 [sage] NGNG

>>215

いえ、それが、全行出力されちゃうんです。
ちょっと、やってみていただけませんか。(インデントはわざとしません。)
---
while(<DATA>) {
chomp;
s/（.+?）$//;
print "$_\n";
}
__DATA__
木立（こだち）のなかに（夏目弱石）
山の上の芋粥（いもがゆ）（芥川蛇の介）

219

： 215 [sage] NGNG

ん～、なんないよ (5.005_03) 。
5.6 を試す環境が無いので申し訳ないでつが、Perl のバージョンの問題？

220

： 名無しさん＠お腹いっぱい。 [sage] NGNG

5.6.0 で試したらそのまま出ますた。
これまでの経緯をちゃんと読んでないんだが、 s/（[^）]+）$//; じゃダメ？

221

： 名無しさん＠お腹いっぱい。 [sage] NGNG

>>220

それだと、 [^）] の部分は [^\xa1\xcb] なのでダメだと思われ。

>>204

の方法だとうまくいくようになるの？

222

： 名無しさん＠お腹いっぱい。 [sage] NGNG

5.8.0だと、191の式でうまくいくんだがなぁ。

while(<DATA>) {
chomp;
s/（[^（）]+）$//;
print "$_\n";
}
__DATA__
木立（こだち）のなかに（夏目弱石）
山の上の芋粥（いもがゆ）（芥川蛇の介）

木立（こだち）のなかに
山の上の芋粥（いもがゆ）

223

： 189=207 [sage] NGNG

追試どうもです。

>>219

古いマシンに5.005_03（5.005_03 built for i386-linux）もあったのでやっ
てみたら、奇妙なことに。
euc-jp-dos、shift_jis-unix → OK
euc-jp-unix、shift_jis-dos → 行全体が出てくる

v5.6.0 built for MSWin32-x86-multi-threadおよびv5.6.1 built for
cygwin-multiでは、どれでもだめです（行全体が出てくる）。文字コードutf8
にしても同じ。

>>222

こりゃもう5.8にするべきですかね。

224

： 名無しさん＠お腹いっぱい。 [sage] NGNG

>>222

いやいや、たまたまうまくいっているように見えるだけでしょ。

>>202

さんのを参考にしる。

225

： 195 [sage] NGNG