文字コード総合スレ Part11

： [] 2018/01/22(月) 22:58:23.45

:UK/uqEp5

プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 ttp://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 ttp://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 ttp://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 ttp://pc11.2ch.net/test/read.cgi/tech/1228052369/
　（スレ再利用）UnicodeとUTF-8の違いは？ ttp://pc12.2ch.net/test/read.cgi/tech/1177930957/
　（隔離スレ）UnicodeとUTF-8の違いは？　その2 ttp://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 ttp://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 ttp://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 ttp://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 ttp://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 ttp://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 ttp://mevius.2ch.net/test/read.cgi/tech/1444822140/

： [] 2018/01/22(月) 23:00:45.76

:UK/uqEp5

■参考サイト
Unicode Home Page
外部リンク

ttp://jump.5ch.net/?http://www.unicode.org/
Java Character Encodings
外部リンク

ttp://jump.5ch.net/?http://www.ingrid.org/java/i18n/encoding/
euc.JP: tech docs, BeOS tools
外部リンク

ttp://jump.5ch.net/?http://euc.jp/
IANA: Character Sets
外部リンク

ttp://jump.5ch.net/?http://www.iana.org/assignments/character-sets
Legacy Encoding Project
外部リンク

ttp://jump.5ch.net/?http://sourceforge.jp/projects/legacy-encoding/
CP50220
森山さんの説明
外部リンク

ttp://jump.5ch.net/?http://lists.sourceforge.jp/mailman/archives/legacy-encoding-talk-ja/2006-March/000002.html
JIS X 4061
日本語文字列照合順番
外部リンク

ttp://jump.5ch.net/?http://www.jisc.go.jp/

： [] 2018/01/22(月) 23:02:39.42

:UK/uqEp5

■これまでに行われた議論
・WinでCP50220 は Unicode からマルチバイト文字への変換でいわゆる半角カタカナを全角カタカナに置き換え
　内部的には Unicode -> CP932 -> CP5022ｘって変換な気もする
・人名をソートかけたらバストサイズ順の並びになる？
・Shift JIS や EUC-JP や Big5 や GB なんかをUnicode に変換してしまうと、ラウンドトリップは保証されるか
・単一情報をソースの文字コード(or 言語)情報なしに元に戻したい（統計的に文字の出現確率なんかを調べる）
・PC-98x1シリーズのMS-DOSはShift_JISだが漢字ROMはJIS、変換は何処で行っていた？
・0x5cをUnicodeにするときにバックスラッシュに置き換えるか円マークに置き換えるかで、逆変換時に結果が変わるの問題
・丸付き数字は機種依存文字か？。MSIME2007ではCP932に収録されてない文字は「環境依存文字」って表示。
　Macではフォントによっては表示されないし、フォントによっては表示される
・Shift_JISと名乗っているCP932やISO-2022-JPと名乗っているCP50220を表示（Unicodeに変換）する際に
　機種依存文字はサポートされるか？
・Safari文字コード変換のバグは
・Microsoft文字コード変換のバグは
・U+31F0..U+31FF（アイヌ語表記用小書きカタカナ）が入ってない件
・なぜ携帯業界はunicode化しないのか？
・このスレへの書き込みはブラウザが2chへ送り出す時点でUnicodeからShift_JISに変換しているのか
・文字化けに強いishフォーマットでエロ画像を交換する場合、ssより、s7のほうが化けにくい

： [] 2018/01/22(月) 23:08:33.67

:UK/uqEp5

・中国語の簡体字では、へんやつくりが簡略化されるなら、その文字も自動的に簡略化して表記する国家規格が有る
・中国語の「噁心」簡化政策によると「恶(U+6076)」に統一。口偏＋恶(U+6076)は普通に使われているがUnicodeにはない
・日本人のニーズが満たせないのも確かなので原規格分離（中国では「曾→曽」は簡体字と繁体字の違いとはみなされていないとか）
・UNICODEを扱うプログラムはサロゲートをぶったぎられた入力が渡されてくる場合にも備えろって→YES
・UnicodeとUTF-8の違いは？
・日本のCJK Ext.D Submissionに{魚針}が含まれてる件
　U+9C75(魚箴)は強烈。いくら何でも違いすぎる。(魚針)
　ひょっとしたら後で実は別字だったとか日本では異体字だが中国では別字とかになるかも知れんぞ。
　中国ではってレベルじゃねーぞ。
・Windows Vista での「IME パッド - 文字一覧」の「JIS X 0213 （1面）」のバグ
　UTF-16: 0x304B 0x309A →　Unicode: U+FD61809A　（間違い）　（ISO/IEC10646はU+10FFFFまで）
　サロゲートペアからコードポイントを引き出す計算を無理やり適用（間違い）
　((0x304B - 0xD800) << 10) + (0x309A - 0xDC00) + 0x10000が 0xFD61809A になる。
・文字コードではインドカレーは飲み物か否か。カレーパンうまうま。
・CJK混在の漢字環境ってどうやって、切り分ければいいの？　→　ムリです。
・Winzipで保存されるファイル名が文字化け→zipではコードページ情報が無い。直接zipファイルから切り出せ
・Unicodeは言語情報を直接扱わない。多言語の混在表現は（unicodeでは）できないか
・Unicode文字列リストを各国言語を考慮してソートしたいんですが　→　ムリです。
・Unicodeサニタイズが面倒になるのか

： [] 2018/01/22(月) 23:09:29.38

:UK/uqEp5

・SJISとUNICODEの判別はどのようにすればいいですか？BOM。無ければ、統計判断。ライブラリを使うが吉
・ところでケータイのUnicode対応度って実際どうよ？　→　ウンコマークもUnicodeに追加されるんだな。
・WindowsXP でフォルダに使用できないフォルダ名はどうやって判定
　　→　ちょっとアホな方法だけど、%TEMP% フォルダの下で実際に作ってみて。本当に作成できるかどうかで判断。
・TwitterのWebインターフェイスからだと、サロゲートペアは2文字としてカウント。140字打てない。
・Unicode 5.2で追加されたUnicodeSMP(第1面)、Unicode 5.1で未定義だったSMPのコードポイントや第15、第16面が
　Windows7では表示されない。　→　和田研細丸ゴシック2004ARIBはARIB外字を含んでいる。
・WindowsXP SP3でMicrosoftのJIS2004フォント環境でサロゲートペア文字が表示されない。→
　コントロールパネル-地域と言語のオプション-[言語]タブで
　「複合文字や右から左方向に書く言語 (タイ語を含む) のファイルをインストールする」にチェック
・URLの%で続く2桁の0-9、A-Fへの変換は、UTF-8→urlencodeによる。RFC1738を嫁。
・菊紋、桐紋、葵紋などは文字か？海栗コードへの挿入は難しい。そこでTRONだ！！
・元号を安置する場所はJIS第三で確保済み。ウニコードでブロックを確保は政治力次第。
・元号は個人名ではない。特定の時間軸基準に数える年号を漢字で指す文字。
　陛下の崩御後必ずしも元号が追号になるわけではない。むしろ違う場合が多い。昭和54年法律43号の元号法参照。
・文末でなければ"0"+ASCII7ビット、文末なら"1"+ASCII7ビットというエンコード。　→　ヌル1バイトが貴重な時代からの負の遺産。
・Windows7出荷時に未定義だったコードポイントはフォント入れても豆腐になる。Unicode5.2は表示しない。欝だ。
・Unicode6ドラフトでPILE_OF_POO文字確定。ウニコードがもはやイミフ。SerifとSans-Serifで幅に違いは出る？
・shift-jisからUTF-8変換でサイズ1.5倍。でも圧縮すれば平均10％増加程度。用途に合わせて使うべし。
・「wchar_tは>849の嫁。>849の許可無くしてUTF16だの32だの無理矢理突っ込むのは許さん。」
・電子演算機では文字化けなんて飾りです。UTF-8/UTF16の人にはそれがわからんのですよ。

： [] 2018/01/22(月) 23:10:23.31

:UK/uqEp5

もうひとつの過去スレ:
文字コード統一スレ 1文字目
ttp://pc8.2ch.net/test/read.cgi/tech/1109171258/

隔離スレ:
UnicodeとUTF-8の違いは？
ttp://pc12.2ch.net/test/read.cgi/tech/1177930957/
UnicodeとUTF-8の違いは？　その2
ttp://hibari.2ch.net/test/read.cgi/tech/1274937437/
UnicodeとUTF-8の違いは？　その2
ttp://toro.2ch.net/test/read.cgi/tech/1291075205/
UnicodeとUTF-8の違い4(インディアン隔離スレ)
ttp://toro.2ch.net/test/read.cgi/tech/1342963035/

： [] 2018/01/22(月) 23:11:09.62

:UK/uqEp5

■ライブラリ
IBM Globalization - ICU
外部リンク

ttp://jump.5ch.net/?http://www-306.ibm.com/software/globalization/icu/
NKF32.DLL
外部リンク

ttp://jump.5ch.net/?http://www.vector.co.jp/soft/win95/util/se020949.html
バベル
外部リンク

ttp://jump.5ch.net/?http://tricklib.com/cxx/ex/babel/
バベルの文字コード判定で使ってる日本語文書内での各文字の出現頻度データです。
外部リンク

ttp://jump.5ch.net/?http://tricklib.com/cxx/ex/babel/scoremap.csv
mlang
外部リンク

ttp://jump.5ch.net/?http://msdn.microsoft.com/ja-jp/library/aa767865(en-us).aspx
iconv
外部リンク

ttp://jump.5ch.net/?http://www.gnu.org/software/libiconv/
ICU
外部リンク

ttp://jump.5ch.net/?http://www.icu-project.org/

： [] 2018/01/22(月) 23:12:46.87

:UK/uqEp5

■単語一覧
・UTF-16は16ビット単位にエンコードするけど、サロゲートペアがある
　表現できる文字空間はUTF-8と同じく20ビットとちょっと
・丸付き数字は機種依存文字か？MSIME2007ではCP932に収録されてない文字は「環境依存文字」って表示。
　MacJapaneseではフォントによっては表示されないし、フォントによっては表示される。
今のMac（内部Unicodeアプリ）は、フォント依存ではなくアプリ依存。
似非ISO-2022-JPや似非Shift_JISのドキュメント中の丸付き数字は、
素直にAppleのAPIを使ってるアプリならゲタ（U+FFFD）になる。
・Mail.appではISO-2022-JPに収まらずCP932に収まるメールは、含まれる字種によって
　charset=CP932で送信される場合とISO-2022-JP（もどき）で送信される場合がある
・MSでのウニコードとSJIS変換のバグ。
　U+007E TILDE <-> Shift_JIS 0x7E OVERLINE
　U+301C WAVE DASH -> Shift_JIS NA 【MSの問題】
　U+FF5E FULLWIDTH TILDE <-> Shift_JIS 0x8160 WAVE DASH 【MSの問題】
・SafariでのウニコードとSJIS変換のバグ。
　U+007E TILDE -> Shift_JIS 0x8160 WAVE DASH 【Safariの問題】
　U+301C WAVE DASH <-> Shift_JIS 0x8160 WAVE DASH
　U+FF5E FULLWIDTH TILDE <-> Shift_JIS NA
・winzipの規格ではファイル名のコードページ指定もしくは記録情報が存在しない。
　解決策：取り合えず、MSWin+JPではShift-jisでファイル自体には保存されている。
　MACOSX=Unicode,Unix=UTF/EUC/S-JISどれでもありえる。文字に関係なくLocalLangで
　再変換しているので、それをしなければよい。
・charlenでの文字列長の判定はプラットフォームにより返り値が違う（機種依存文字等）。マニュアル嫁。
・JISのエスケープシーケンスが正しく認識されない本文とか。
　'0x1b, 0x24, 0x42' という3バイトを先頭に、'0x1b, 0x28, 0x42' を末尾に追加汁。
　あるいは外部リンク

ttp://jump.5ch.net/?http://masaka.dw.land.to/mr/jmr.phpとか。

： [] 2018/01/22(月) 23:13:41.58

:UK/uqEp5

JTC1/SC2/WG2 - ISO/IEC 10646 - UCS
外部リンク

ttp://jump.5ch.net/?http://std.dkuug.dk/JTC1/SC2/WG2/

ISO/IEC JTC1/SC2/WG2/IRG
Ideographic Rapporteur Group
外部リンク

ttp://jump.5ch.net/?http://appsrv.cse.cuhk.edu.hk/~irg/

： [] 2018/01/22(月) 23:15:56.35

:UK/uqEp5

取り敢えず復活させてみた
テンプレ？多すぎサーバ重すぎ

： [sage] 2018/01/23(火) 00:19:04.68

:1g8+erCR

>>1

U+4E59

： [sage] 2018/01/24(水) 16:48:24.78

:zUaxys6b

>>1

U+30B9 U+30EC U+7ACB U+3066 U+4E59

： [sage] 2018/01/25(木) 15:27:10.59

:FOhLYx3H

>>1

　乙π

＜前スレのおさらい＞
ユニコードにきちんと対応してほしいフリーソフトは多い

IrfanView
Lhaz
FileSum

： [] 2018/01/25(木) 15:31:46.52

:zPND7U3x

tar

： [sage] 2018/01/25(木) 23:49:25.62

:lhHsRXtx

Irvineがそんな感じで困る

： [sage] 2018/01/28(日) 03:46:07.34

:LuQm6AHf

Irvineはファイル名はスクリプトでなんとかなるけど階層フォルダは化けたままなんだよね

IrfanView 64bit はユニコード未対応
IrfanView 32bit はユニコード部分対応 (難有)

： [sage] 2018/01/30(火) 12:29:18.25

:E5ua1x2q

IPAmj明朝最新バージョンキター
変体仮名も使えるようになってた。

： [sage] 2018/01/30(火) 17:01:26.26

:Y7itdObJ

(#8229;∀‥`)ほう

： [sage] 2018/01/30(火) 17:14:44.90

:61BNvo+J

そばですか

： [sage] 2018/01/30(火) 21:38:00.04

:1SBQJDTb

IPAmjはcmapを足しただけかな
濁点半濁点つき変体仮名のグリフを追加したわけではなさげ

： [sage] 2018/01/30(火) 22:58:48.17

:wQODml7Q

きの𛀁【甲】
ひの𛀁【丙】
つちの𛀁【戊】
かの𛀁【庚】
みづの𛀁【壬】

： [sage] 2018/01/31(水) 12:22:08.15

:jg2l5TuK

IPAmjのゴシック版って出ないのかな。

： [] 2018/01/31(水) 13:35:09.89

:W90doUhw

えとって𛀁戸なのか

： [sage] 2018/02/01(木) 01:34:12.20

:cOPRkGeS

そういえば変体仮名って絶対漢字のフォントバリエーションとして使われるな。

ラテン文字のところをキリル文字ギリシャ文字でちょっと異国情緒出したりするのと同じように

： [sage] 2018/02/01(木) 12:26:52.61

:ypQwObPk

OS標準のフォントに変体仮名が入るのはまだ先の話かな。

： [sage] 2018/02/01(木) 21:02:21.65

:JSLqqKka

Mac/iOSはAJ1準拠のフォントをバンドルしてるだけだから変体仮名のサポートもAJ1次第だろうな
AndroidもNoto CJKをバンドルしてるだけだからこっちもやはりフォントを作ってるAdobe次第か

Winはゴシック系フォントはUnicodeをフルカバーしようとしているようなんで可能性ありそうだけど
明朝系は1B000～1もスルーしてるんで変体仮名も放置と予想

： [sage] 2018/02/02(金) 00:29:26.12

:iiJ5+HcF

メイリオの変体仮名が来るのか

： [] 2018/02/02(金) 07:09:07.07

変態さんかな？

： [sage] 2018/02/02(金) 12:26:25.48

:QpaXEFbV

変体仮名がOS標準のフォントに入ったら
ハンドルネームとかAAに使われるかな

： [sage] 2018/02/02(金) 13:12:45.95

:XWVaw1+J

よく有料フォントに正規版とお試し版があるけど
この２つのフォントファイルってシステム的に共存できるの？
それとも後から入れたほうに上書きされちゃう？

： [sage] 2018/02/03(土) 01:07:32.21

:PZ3vBGzx

Windowsの場合フォントの内部名が違えば共存
同じなら上書き

： [sage] 2018/02/03(土) 04:35:56.44

:oZ9l3iOK

>>31

ありがと
いろいろなのね

： [] 2018/02/03(土) 04:52:04.58

:pNC8Ba1v

名前変えてインスコするだけ

： [sage] 2018/02/03(土) 23:36:52.87

:7YWK+QWP

上書きできたっけ?
先に入ってる方を消せって言われた気がする

： [sage] 2018/02/04(日) 14:42:43.04

:ggk79Dnh

上書きしますかか更新しますかって聞かれる気がする

： [] 2018/02/04(日) 16:58:59.50

:AtwA7TkY

ttp://jump.5ch.net/?http://nixeneko.hatenablog.com/entry/2015/12/29/231141
外部リンク

ttp://jump.5ch.net/?http://hyoromo.hatenablog.com/entry/2015/03/03/164225
外部リンク

ttp://jump.5ch.net/?https://www.mirucon.com/2016/02/09/trance-type/

： [sage] 2018/02/04(日) 17:57:43.36

:F/J6Xayo

馬耳東風って本当に存在する現象なんだな

： [sage] 2018/02/04(日) 18:01:22.90

:AtwA7TkY

それを言うなら馬のシカに念仏

： [sage] 2018/02/08(木) 08:34:15.23

:9/5RomB7

Unicode Emoji 11.0 characters now final for 2018
外部リンク

ttp://jump.5ch.net/?http://blog.unicode.org/2018/02/unicode-emoji-110-characters-now-final.html
First look: All 150+ Emojis for 2018
外部リンク

ttp://jump.5ch.net/?https://www.youtube.com/watch?v=5qLDBQ583Y8

： [sage] 2018/02/08(木) 13:08:04.59

:dB9qfKFM

思いついた絵文字を定期的に追加する文字コードになってしまったな

： [sage] 2018/02/08(木) 16:58:39.51

:146Y2n+h

ttp://jump.5ch.net/?http://www.unicode.org/L2/L2018/18056-future-adds.pdf

日本の新元号はU+32FFに入れてもらえそう？

： [sage] 2018/02/09(金) 18:02:52.35

:AUjtCL3B

そのコードポイントは昔、□デを入れる事が提案されたが
○ンとか他の重要な文字の為にとっておくべきとかでSMPに追いやられたなんて事があったな。
元号組文字が重要な文字だと認められればそこになるだろうけど。

： [sage] 2018/02/09(金) 18:32:17.19

:iqzIZ4Vv

元号エリア用意して連番にするとして
何文字用意すれば良い？

： [] 2018/02/09(金) 19:31:27.80

>>43

とりあえず127個もあれば人類滅亡まで持つと思う

： [sage] 2018/02/09(金) 20:00:03.04

:0E/oZJHb

既に250弱あるのに何言ってんだ

： [sage] 2018/02/09(金) 20:02:34.92

:chnfArN4

U+32FF ??
U+337B 平成
U+337C 昭和
U+337D 大正
U+337E 明治

ここに入れるとコードポイント逆順でソートできるという利点が

： [] 2018/02/09(金) 20:33:41.59

:tdu0vLnD

合成文字定義するんじゃないのか

： [sage] 2018/02/09(金) 22:26:47.14

:/PLWE3G9

あくまでもあれらは他の規格との互換用で通常は使用する事が推奨されていないのだがな。
たとえば平成はU+337B(㍻)を使うのではなくU+5E73(平)とU+6210(成)を並べる事が推奨されている。
最近では昭和時代～平成初期とは違ってワープロソフト等で任意の組み文字を表示、印刷するのが容易になったし、
使用出来る容量も多くなって1文字分のバイト数でも減らしたいなんて事は少なくなったし次の元号の組み文字は入るだろうか?
JIS X0213とかに入ればUnicodeにも追加せざるを得なくなるだろうが。

： [sage] 2018/02/09(金) 23:58:38.13

:lYXDEjIZ

そういえば康熙部首とIDCに挟まれたU+2FE0～U+2FEFって空いてたよな。
どうしてもBMPがいいならそこを元号専用ブロックにするのはダメなのかな?
名称はJapanese Era NameとかGengoとかで。
16個あればよほどの事が無い限り今生きてる世代が生きてる間は大丈夫だろう。

： [sage] 2018/02/10(土) 01:04:36.42

:3N07jfB9

絵文字の一種としてなら完全に新しい組文字でもすんなり入れられそうな雰囲気ある

： [] 2018/02/10(土) 05:35:14.43

:1vRRPdai

>>49

次の代で終わる鴨試練

： [sage] 2018/02/10(土) 14:28:40.69

:55j4PhG1

BMPの必要性ないわな

： [sage] 2018/02/10(土) 23:46:14.13

:V4kIiAX3

そもそも元号に限らず組文字のコードはあまり使われないよな。
昔から機種依存文字(環境依存文字)だから使うな言われてきたのもあるけど。
でも明治、大正、昭和、平成の組文字㍾㍽㍼㍻はあるのに、
○○(新元号)が無いのはおかしい。UnicodeではBMPでないといかん。なんてゴネる人が出てくるのかな。

： [sage] 2018/02/11(日) 01:09:40.03

:WMQeXuiD

そういうひとは明治以前の元号をスルーしてる

： [] 2018/02/11(日) 01:37:38.13

:pE9MWmVE

チョン国人：慰安婦文字はまだですか？

： [sage] 2018/02/11(日) 02:58:01.54

:+g/aG4zA

DNAの二重らせんがついに絵文字に…！→イラストの深刻なミスが発見される - Togetter
外部リンク

ttp://jump.5ch.net/?https://togetter.com/li/1197708

： [sage] 2018/02/11(日) 06:42:49.06

:I57TUl59

>>53

Unicodeの日本部隊はルール無視してでもねじ込みたがりだからな
今後も考えた上で場所を決めてほしい

過去のがないのは元々がJIS定義の字を収録してるだけだから
JISがこれからどうするかに歩調を合わせるべきだと思うけどね

： [sage] 2018/02/11(日) 13:29:49.03

:aLeqVhz7

>>56

そもそもなんでこんなもの入れたんだ

： [sage] 2018/02/11(日) 23:57:18.38

:RlzDfzqO

CJK統合漢字拡張GはSIPに入り切らなくなったからTIP(第3面)になるんだな。
古代漢字等がU+30000～に提案されてたが、それらはずれる事になるようだ。
で一昨年末に正式名称が決定したあのニホニウムを含む4元素の中国語名の漢字のうち
現時点でUnicode未収録なのは拡張GでなくURO末端部に追加する方針らしい。

： [sage] 2018/02/14(水) 16:24:24.38

:1T5FcoPk

>>58

ttp://jump.5ch.net/?http://www.unicode.org/L2/L2017/17113-science-emoji.pdf

科学ファンサイト“I Fucking Love Science”のFacebookにはフォロワーが2500万人いるだの
3月のFacebookの科学グループには84万人のメンバーが活動してるだの書かれてるから
結局「Facebookで使ってみたかった」なのでは。

： [sage] 2018/02/15(木) 04:48:41.13

:ra7E/PHQ

test

： [sage] 2018/02/15(木) 04:52:15.83

:ra7E/PHQ

test

： [sage] 2018/02/15(木) 06:09:58.19

:ZpZxpx4v

test2

： [sage] 2018/02/15(木) 06:10:24.31

:ZpZxpx4v

test2

： [sage] 2018/02/15(木) 06:10:28.38

:ZpZxpx4v

test2

： [sage] 2018/02/15(木) 06:14:40.45

:lreHQ0M8

hage

： [sage] 2018/02/15(木) 06:27:48.90

:y383ZoHX

テストてすと漢字

： [] 2018/02/18(日) 09:20:31.63

合字なんて百害あって一利なしと判明

： [sage] 2018/02/19(月) 14:39:31.27

:tWGaYfLB

macOS 10.13.3/iOS 11.2.5でアプリが特定のテルグ語でクラッシュするバグはゼロ幅非接合子の処理の不具合によるもので、iOS 10にも影響。
外部リンク

ttps://applech2.com/archives/20180216-macos-and-ios-telugu-crash.html

： [] 2018/02/20(火) 00:53:22.06

たかが文字のために複雑な処理を強いるからこういうことになる
合字なんてやめてビットマップで用意すりゃいいだろ
今の時代、そのくらいのリソースの余裕はあるだろう

： [sage] 2018/02/20(火) 21:44:08.47

:4B02mjKW

いやアニメーションGIFの方がいい

： [sage] 2018/02/20(火) 23:42:25.88

:J/S+v6zO

base64エンコードしとけ

： [sage] 2018/02/21(水) 16:48:25.28

:1FmFnhWu

単純な絵文字ならLINEスタンプの如く画像でもいいけど
そのテルグ語というのは文字を画像にしたところでどれほど処理が簡便になるのやら

： [sage] 2018/02/26(月) 14:48:48.25

:GQG1rcv8

L2/18-063
Proposal to remove the UCS2003 representative glyphs from the Extension B code charts
Ken Lunde
2018-02-22
外部リンク

ttp://jump.5ch.net/?http://www.unicode.org/L2/L2018/18063-remove-ucs2003-ext-b.pdf

： [sage] 2018/02/28(水) 08:11:48.96

:V/xY/GLw

うにコードって何でいっぱいあるの？

どれで保存しますかとか言われても知らんがな

外部リンク

ttp://www.geocities.jp/kwx50/bk/img_tips2/save_as_.jpg

： [sage] 2018/02/28(水) 10:19:54.78

:qCi3B9pX

UTF-16があれば十分だと思ったこともありました

： [sage] 2018/02/28(水) 11:10:39.29

:8h6/NeTB

>>76

UTF-32 でも全漢字を収録するわけではない
(文献学・学術用途には足りない）
のが悲しいところです

： [sage] 2018/02/28(水) 15:09:53.47

:vLCxLqSt

UTF-8だけで結構。

： [sage] 2018/02/28(水) 16:24:29.00

:Ow51LBi3

UTF-8でもUTF-16でもUTF-32でも表せる文字数は同じはずだが
UTF-16の限界に合わせてUTF-8とUTF-32を途中から制限したというべきか。

： [] 2018/02/28(水) 17:38:48.54

:F8/eMdWm

>>75

BOMなしのUTF-8が選べればベスト
無理ならbigendian

： [] 2018/02/28(水) 21:23:27.95

>>79

ハァ？
UTF-32ならUTF-8の4倍の文字を表せるはずだろ

： [sage] 2018/02/28(水) 21:38:05.83

:8h6/NeTB

>>81

なにをトンチンカンなことを言っている
外部リンク

ttp://jump.5ch.net/?https://ja.wikipedia.org/wiki/%E6%96%87%E5%AD%97%E7%AC%A6%E5%8F%B7%E5%8C%96%E6%96%B9%E5%BC%8F#%E6%96%87%E5%AD%97%E7%AC%A6%E5%8F%B7%E5%8C%96%E5%BD%A2%E5%BC%8F%E3%81%A8%E6%96%87%E5%AD%97%E7%AC%A6%E5%8F%B7%E5%8C%96%E3%82%B9%E3%82%AD%E3%83%BC%E3%83%A0

： [sage] 2018/02/28(水) 21:51:42.35

:EoZt1sU9

わざわざID消してくれてる荒らしに構うな

： [sage] 2018/03/01(木) 10:30:25.87

:K+j/zXtz

>>80

あんがとー

＞　Windows付属のメモ帳では標準でBOMが追加されてしまうらしい

うにコード詰んどるやんけ…

： [sage] 2018/03/01(木) 19:03:52.79

:5P8YUW6k

詰んでるのはメモ帳の方で
うんコード自体はまだ希望ある

： [sage] 2018/03/01(木) 21:13:43.25

:ni3ppFQA

ゆうてBOMついてて困るってどれぐらいある？

： [] 2018/03/02(金) 05:14:51.39

:29NVX3N7

>>76

>>77
語りたくてしょうがない具合がキモいな

： [sage] 2018/03/02(金) 08:24:39.34

:qP0hZxcg

wchar_t楽チンでいいんだけどなあ
UTF8なんてアメリカ人はASCIIと区別してないだろ

： [sage] 2018/03/02(金) 13:34:30.39

:NpAiIv/C

>>88

： [sage] 2018/03/03(土) 21:08:37.51

:4FkhobJB

ビルマ文字の文字コードを何とかしてくれ

： [sage] 2018/03/09(金) 21:41:02.61

:F3m2Keu8

教育漢字(小学校で習う漢字)しか入ってないお試しフォントを時々見かけるけど
外部リンク

ttp://jump.5ch.net/?http://forest.watch.impress.co.jp/article/2002/07/24/motoyafont.html

こういうフォントはインスコしたらそこそこ役に立つんだろうか？
人名は色々引っかかるから名簿には使えないだろうけど

： [] 2018/03/10(土) 10:32:38.62

:TTti/WSS

官公庁でも使えないのか

： [] 2018/03/10(土) 10:33:43.40

:TTti/WSS

ああ要するに撒き餌記事だな
誘導されたら負け

： [sage] 2018/03/10(土) 22:09:21.47

:w6ueh4CJ

いつの記事やねん

： [sage] 2018/03/10(土) 22:32:59.43

:XvEndXTa

教育漢字フォントはわりと色んなメーカーから出てるが

>>92-94

の反応を見ると知らない奴は知らない模様

： [sage] 2018/03/10(土) 22:47:02.21

:Y9zk6QBB

吉野家が打てないからな＞教育漢字

： [sage] 2018/03/17(土) 13:54:50.47

:Frqgdg64

IPA
プレス発表　「文字情報基盤整備事業」で推進していた漢字6万文字の国際規格化が完了
外部リンク

ttp://jump.5ch.net/?https://www.ipa.go.jp/about/press/20171225.html

： [sage] 2018/03/17(土) 14:07:56.36

:yHhMlxWi

いつの記事やねん

： [sage] 2018/03/17(土) 14:54:51.30

:Frqgdg64

申し訳ない。

100

： [sage] 2018/03/17(土) 15:29:10.27

:9Eobsiem

IPAなんてまぎらわしい名前付けやがって大迷惑だわ

101

： [] 2018/03/17(土) 16:42:18.12

:cWw1OMJa

ほんそれ

102

： [sage] 2018/03/17(土) 21:17:50.06

:9viTJtIg

国際音声記号もIPAだったな。

103

： [sage] 2018/03/18(日) 00:41:28.92

:Gc198fCD

今からでも略称変えてほしいわ
19世紀からある団体と被せやがって

104

： [] 2018/03/18(日) 03:54:48.28

:HsPk0IuW

KCL

105

： [sage] 2018/03/18(日) 04:20:31.18

:Yx3zl5Jc

情報処理推進機構だから JSK にすればいいのに
なんか文字面ええやん

106

： [sage] 2018/03/19(月) 09:00:05.53

:mojZe7gW

>>105

アニメで見た

ttp://pbs.twimg.com/media/DEnKW75UQAEOZX7.jpg

107

： [] 2018/03/21(水) 10:48:26.27

:4NRc1cWQ

先日日本語キーボードに変えたら\でエスケープ出来なくて焦った
そして今まで知らぬうちにUnicodeでコード書いてたのに気付いた
もうバックスラッシュ=\の時代で無いんだな…

108

： [] 2018/03/21(水) 10:50:01.21

:4NRc1cWQ

ちなみにMACだけどバックスラッシュはオプション+\で出せる
こんなアホ他に居るか分からんので役に立つか分からんが…

109

： [] 2018/03/21(水) 11:33:06.21

:9aBHV4ji

何言ってんだこいつ

110

： [] 2018/03/21(水) 11:37:08.42

:0twXSax5

具体的に反論できないならレスすんなよ

111

： [sage] 2018/03/22(木) 04:56:13.36

:uJd//Z6A

>>107

俺には「\でエスケープ出来なくて焦った」の\が本来言いたいであろうU+A5ではなく
ちゃんと5Cになっているように見えるんだが……

112

： [] 2018/03/22(木) 06:22:34.04

>>111

ここは5chだからな
¥と¥の区別が付いてたまるか

113

： [sage] 2018/03/22(木) 06:57:15.78

:C5Ula1AM

ブラウザの設定依存の可能性ががががが

114

： [] 2018/03/22(木) 09:43:21.18

:Q2/ylW7b

5Chわろた

115

： [sage] 2018/03/22(木) 10:27:40.75

:mcQm+qkM

>>111

試してみたら専ブラからでもFirefoxからでも
円記号を書き込むとバックスラッシュに変えられてしまう
外部リンク

ttp://mevius.5ch.net/test/read.cgi/tech/1402617355/254-255">ttp://mevius.2ch.net/test/read.cgi/tech/1402617355/254-255
>>112が円記号を書き込めているのは謎だけど
> \と\の区別が付いてたまるか
これもバックスラッシュに変わるはず

116

： [sage] 2018/03/22(木) 11:18:54.50

:ZqQjjjtT

ここは5chだから\と¥は書き分けられる

117

： [] 2018/03/22(木) 12:06:59.42

2chブラウザの実装によるとしか

ちな

>>112

はBathyScapheからの書き込み

118

： [] 2018/03/22(木) 12:21:22.23

:o6o53GFc

まぎらわしいから5ちゃんじゃなくて005cHか0x5Cって書いてくれ

119

： [sage] 2018/03/22(木) 15:53:15.85

:UF/XC/99

0x5c に限らず、ASCII 文字列は国によってフォント上さまざまに実装されてきた
Unicode の時代には、そんなフォントは存在してはいけないし、使用してもいけない

120

： [sage] 2018/03/23(金) 00:09:04.87

:VqVxJ9uP

何原理主義だろう

121

： [sage] 2018/03/23(金) 16:08:24.29

:aSD4raKW

ASCIIもISO/IEC 646もJIS X 0201も
よもや半世紀50年(以上)も使い続けることになるとは思うまいて

122

： [sage] 2018/03/23(金) 17:18:23.98

:0DDzAR5J

22世紀でも使われてるよ

123

： [sage] 2018/03/23(金) 20:13:42.24

:cDUKcJ53

ISO-2022シリーズはとっとと滅びてほしいんですが

124

： [sage] 2018/03/23(金) 23:59:10.11

:2n1onn8y

21世紀の現在でもメモ帳のデフォはANSI (CP932) だし
うにコードはおとなしく寿司ネタにでもなってるがいいにょ
外部リンク

ttps://b2v8w6eq1p1erh.cdn.jp.idcfcloud.com/menu/img/999660362_PCL.jpg

【参考】寿司の絵文字はOSによって表示が異なる
外部リンク

ttp://jump.5ch.net/?https://iwb.jp/unicode-sushi-mac-windows/

【参考】あなたのデバイスで寿司の絵文字がどのように表示されるか確認
外部リンク

ttp://jump.5ch.net/?https://iwb.jp/s/unicode-sushi-mac-windows/

125

： [sage] 2018/03/24(土) 08:40:08.55

:XLuW03jy

また新しいemojiが提案されたぞ

Apple Proposes New Accessibility Emojis
外部リンク

ttp://jump.5ch.net/?https://blog.emojipedia.org/apple-proposes-new-accessibility-emojis/

126

： [] 2018/03/24(土) 11:29:39.85

:5hh+Vua5

モンスター利用者の匂いがプンプン😡😠する

127

： [sage] 2018/03/24(土) 13:16:29.93

:OxOc4HMA

寿司、卵焼きだったわ

128

： [] 2018/03/24(土) 19:36:01.34

:48/rgK9T

>>115

本人だけど深読みし過ぎ
ガラケーだからユニコ(即ちバックスラッシュ)打てないだけです

129

： [sage] 2018/03/24(土) 21:33:57.21

:sOpHkhnz

＼と打ちたかったけどガラケーなので入力できなかったということか?

>>107

は Macの日本語キーボードで\と入力するつもりだったのに
＼になってたということか?

130

： [] 2018/03/24(土) 21:52:09.74

:48/rgK9T

>>129

ああ全角の＼ならガラケーで打てたな
US仕様では当然半角＼キーで素直に半角＼が出て表示される、但しASCII環境ならASCIIで、ユニコならユニコで
長く日本仕様を離れていたので、昔の半角＼=半角￥という読み替えの古い常識で考えてしまい、
エスケープ用に半角＼の代用として半角￥記号を用いてしまった
しかし今やIDEもユニコで保存される時代(少なくともうちのは)、半角￥と半角＼はもはや違う文字なので別に扱われてしまった、と

ほんのつぶやき気分で書き込んだのになんか紛糾させてしまってて申し訳ない…

131

： [] 2018/03/24(土) 22:10:16.18

結局、業務でプログラミングするためのデスクトップ環境はWindows一択ってこと

132

： [sage] 2018/03/24(土) 23:58:50.00

:N+9D7Vpq

日本語版ではキーボードの \ 打っても \ 打っても出るのは円記号だし
フォントも U+005C は全部円記号に直してあるから徹底してはいるよな……＞Windows

133

： [sage] 2018/03/25(日) 01:12:37.34

:Xbb+EzoJ

このスレのＭａｃ使いは何％くらい？

134

： [] 2018/03/25(日) 08:12:07.62

>>133

業務はWindows一択
個人でのプログラミング・ゲーム・動画編集はWindows
個人でのインターネット閲覧はMac
Macだと住所入力とかでシステムが求める全角ハイフンが入力できなくて困ることもあるけどそういうときはコピペで何とかしてる

135

： [] 2018/03/25(日) 08:37:33.87

:U5SlEUJl

ウェブ屋さんはMac率200%くらいじゃないだろかね。

136

： [sage] 2018/03/25(日) 08:59:39.70

:iml51cux

昔はWebObjects使うからMac、なんてのも聞いたけど、今はなんでMac選ぶんだろうね。

137

： [] 2018/03/25(日) 09:15:36.40

:2683qfFE

全員にMACBOOK一括支給されてるけど供給が大手で滞らないし管理しやすいからだろう
新品の充電器と本体のストックあり

138

： [] 2018/03/25(日) 09:16:54.83

:2683qfFE

家ではもちろんWindows

139

： [sage] 2018/04/02(月) 20:37:29.23

:x4wG72eH

新元号への対応についてのアップデート
外部リンク

ttp://jump.5ch.net/?https://blogs.technet.microsoft.com/jperablog/2018/04/02/新元号への対応についてのアップデート/ 👀
Rock54: Caution(BBR-MD5:0be15ced7fbdb9fdb4d0ce1929c1b82f)

140

： [sage] 2018/04/03(火) 19:33:36.58

:oHE3S4VB

せっかく準備期間を十分確保できる改元なのに新元号の公表を
極力遅らせようとするなんてどうかしてる

141

： [] 2018/04/04(水) 02:30:00.47

:h2UR4/YM

新元号があらかじめわかる方が可笑しい

142

： [sage] 2018/04/04(水) 09:22:34.11

:XmvaXIwt

>>139

＞Shift-JIS 対応に関するお問い合わせも複数頂戴しており

Shift_JISは滅びぬ！何度でも甦るさ！

143

： [] 2018/04/04(水) 15:14:07.82

:Pmay6Vdj

昭和のときは平成の文字コードあらかじめ空けてあったんだよな
UNICODEではその辺のセンスないのか

144

： [] 2018/04/04(水) 17:37:38.50

>>143

ん？200個くらい空けてあるって確かこのスレで教えてもらったけど？

145

： [] 2018/04/04(水) 17:39:15.43

>>43-48

だった
250個も空きがあるんなら問題ないっしょ

146

： [sage] 2018/04/04(水) 18:07:49.51

:rXkfBXRy

空きが250あるかどうか知らないが日本の元号は既にそのくらいあるな

147

： [sage] 2018/04/06(金) 19:44:03.07

:eeERSjFP

空けてあったんじゃなくて当時のJISコードがスカスカだっただけ
今回だって別にBMPにこだわらなければ場所はいくらでもある

148

： [sage] 2018/04/06(金) 20:30:23.32

:9uxpFeFd

>>146

どうせ良くも悪くも元号合字があるなら、せっかくだから過去のも入れてほしいなあ。南北朝のをどういう順番にするのがいいのかわからないけど。

149

： [] 2018/04/07(土) 12:03:23.81

:BRhgC8GS

>>148

南北朝のはスレッド二つにするべき
そこまでするならコードだけじゃなくて期間の情報も欲しい

150

： [sage] 2018/04/07(土) 12:40:24.25

:uudWMLk6

文字以外のものを平気で文字コードに入れようとするような奴がいるからUNICODEが糞になったんだろうな

151

： [] 2018/04/07(土) 21:58:57.93

それな🙋絵文字を増やす動きは馬鹿すぎだわ🤔
絵文字なんざ煽るときとかおちょくるときにしか使わないんだから🤣

152

： [sage] 2018/04/08(日) 08:28:28.54

:rpv5P472

そんなこと言ってないで🍣喰え😋

とかやるわけだ

153

： [] 2018/04/08(日) 12:11:16.44

:YK+KPtHu

歴代天皇の顔を全部顔文字にするべき

154

： [] 2018/04/08(日) 12:38:11.74

そんなん差別だろ😡全人類の顔を入れろや😤

155

： [sage] 2018/04/08(日) 13:46:13.79

:2ig97iWV

>>153

どの天皇よりも聖徳太子のほうが使える気がする

156

： [sage] 2018/04/08(日) 14:22:35.48

:xmyFoIZI

そういえば、たまにみかけるヨコハマタイヤのマークみたいな顔の活字ってUNICODEには入ってないのかな。

157

： [] 2018/04/08(日) 15:13:40.81

:nkM5b3tX

国旗が顔文字になる時代

158

： [sage] 2018/04/08(日) 18:16:37.26

:nFQIU7l5

>>156

「写植記号BA-90」のことなら、一応ユニコード上では「U+1F31D FULL MOON WITH FACE」に相当するっぽいけど、そのままのデザインで収録しているフォントは無さげ

「GL-アンチックPlus」というフォントには私用領域のU+E012に収録されてるみたい

違う文字の話だったらゴメンね

159

： [sage] 2018/04/08(日) 18:21:46.58

:ikNNlzZg

>>157

顔文字？絵文字だろ

160

： [sage] 2018/04/08(日) 18:52:03.01

:xmyFoIZI

>>158

それそれｗ
満月だったのか。

161

： [sage] 2018/04/08(日) 23:57:50.48

:JmR0EgV6

質問させてください。
外部リンク

ttp://jump.5ch.net/?http://www.birdland.co.jp/wordpress/?p=377
↑このWebページに，
「今ではよく意味が通じないですが半角漢字というサイズが１の、ひらがななんてのもありました。」
とあるのですが，“半角漢字”や“1バイトひらかな”などでWeb検索してもそれらしきものが見つかりません。
ご存知のかた，どうか〝半角漢字〟について教えていただけないでしょうか……。

162

： [sage] 2018/04/09(月) 01:39:30.08

:8NSSH6sZ

MSXかな？

ttp://jump.5ch.net/?http://www.geocities.jp/hiroshikoubou/page006.html#CHR$

163

： [sage] 2018/04/09(月) 14:30:25.25

:jnBi1DXA

兀ってなんや？

164

： [sage] 2018/04/09(月) 14:41:43.67

:PipQdxBZ

πじゃないか?

165

： [sage] 2018/04/09(月) 14:45:34.68

:dmgfmkci

日立のベーシックマスターもひらがな表示できたよね。

>>161

もしかして、EUC-JP の半角カタカナのことを言ってるのかな？と思いながら元記事を見たけどよく分からん。
少なくとも「サイズが１」というのは「文字幅が1 (いわゆる半角文字)」と言いたいのだと感じた。

166

： [sage] 2018/04/09(月) 15:10:27.34

:I4uUee7c

ttp://jump.5ch.net/?https://ja.wikipedia.org/wiki/%E3%83%99%E3%83%BC%E3%82%B7%E3%83%83%E3%82%AF%E3%83%9E%E3%82%B9%E3%82%BF%E3%83%BC
>ベーシックマスターレベル3
>標準でひらがなの表示が可能。
>ひらがなモードでは8ﾗ16ドットによってキャラクターを表現する関係から
>インタレーススキャンを利用するため、ちらつきを防止するために
>専用ディスプレイは長残光仕様であった。

後継機のS1を持っていた
S1でも同様にひらがな表示は出来たが、持っていたディスプレイが
長残光仕様じゃなかったので、ちらつきがひどくてひらがなは使えなかった

167

： [sage] 2018/04/09(月) 15:28:37.48

:jnBi1DXA

あーπだったか
πにしてもこの限られたなかに入ってるのはちょっとふしぎだ

168

： [sage] 2018/04/09(月) 16:14:45.29

:I4uUee7c

>>162

MSXにはバッククォート ` もあるんだな
S1にはなかった…

169

： [sage] 2018/04/09(月) 16:34:52.32

:pWi/1Ey6

98でもVMやUVの前期型にゃ無いぜ

170

： [sage] 2018/04/09(月) 16:54:46.77

:zc1O7Ylo

>>163

"こつ"じゃないのそれ

171

： [sage] 2018/04/10(火) 04:41:14.65

:UW6YFgPq

みなさんありがとうございました。
恐らくMSXの日本語文字のことのようですね。
確かにJISの「半角カタカナ」（というと某氏に粘着されそうですが^^;）は良く聞くのですが
ひらかなやまして漢字が１バイトで表現されていた時代もあったとは知りませんでした。
勉強になりました。

172

： [sage] 2018/04/10(火) 08:23:49.31

:RtdAOiVx

ブログなんだから直接聞けよksg

173

： [sage] 2018/04/11(水) 00:04:25.91

:ENYgqsM2

兀突骨(ごつとつこつ)

174

： [sage] 2018/04/11(水) 02:15:14.13

:YTgAqaXH

>>172

どうせ過疎スレなんだから答えてやれよハゲ

175

： [sage] 2018/04/11(水) 02:52:22.38

:n/11ITTj

俺ははげてない

176

： [] 2018/04/11(水) 08:02:05.13

俺はハゲてる(ｴ・ω・｀)

177

： [sage] 2018/04/11(水) 11:22:21.45

:/0jCMe99

禿＝大＋π＝大きいパイ
禿は巨乳

178

： [sage] 2018/04/11(水) 18:45:36.90

:/dmo8H9H

あの時代はVRAMに直接アクセスしてフォント書き換えるのが可能だったから漢字作るのも可能だったよね
まぁデフォルトて漢字用意してたのはMSXくらいしか知らないけど

普段使わないasciiコード255に「笑」を割り当てていたのを思い出してちょっと恥ずかしくなってみたり

179

： [sage] 2018/04/11(水) 19:23:42.70

:7GMVgRs0

>>171

PC-6000シリーズにもあった
外部リンク

ttp://jump.5ch.net/?http://p6ers.net/hashi/furoku5.html

180

： [sage] 2018/04/11(水) 19:39:19.41

:CjJoJUeK

>>178

そりゃPCGだろ。書き換えるための仕組みとして用意してたんだよ。
VRAMに書けるからどんな文字も表示できるってことなら今だって同じだ。

181

： [sage] 2018/04/11(水) 20:05:21.67

:ZpIvtemd

>>179

月火水…とかはMSXのと文字コードは違うけど並び方は同じだし
ひらがなとかは文字コードも同じだな

>>162

182

： [sage] 2018/04/12(木) 01:10:36.70

:d8+40H+h

>>180

細かいこと端折ってしまったみたいで済まなんだ
VPOKE命令だからてっきりVRAM直なのかと思ってたよ

183

： [sage] 2018/04/12(木) 09:42:00.51

:vE9telBE

>>179

セミグラフィックの文字，今じゃほとんどUnicodeに収録されてるなぁ（もちろんUnicodeがPC-6000を念頭に置いてる訳ではないけども）
と思って眺めてたら，Unicodeに無さそうな文字が。
1/8-7,8,9の総和記号を三分割した文字は多分未来永劫Unicodeには収録されないだろうから，
完全にPC-6000独自の文字として歴史に残るねw そこまで大袈裟に言う必要があるかどうかは不問にするとしてさ。

184

： [sage] 2018/04/12(木) 11:32:41.51

:wSM7wjKl

セミグラフィックス

ttp://illustrain.com/img/work/2016/illustrain09-musi5.png

185

： [sage] 2018/04/12(木) 12:23:04.48

:vE9telBE

>>184

こんなのでフフッってなってしまった。
まだ4月始まったばっかりなのに疲れてるのかな…

186

： [sage] 2018/04/12(木) 23:02:24.84

:v5/HhBEu

>>181

同じCGROM使ってたとか何か理由ありそう

P6の方は60の`を欠いてたけど

187

： [sage] 2018/04/13(金) 16:59:26.64

:l5EupZAQ

>>183

あれ、確かUCS/Unicodeにも入ってなかったっけ？
……と思ったらUnicodeに入ってたのは三分割じゃなくて二分割だったか。うーん残念？

U+23B2 ⎲ SUMMATION TOP
U+23B3 ⎳ SUMMATION BOTTOM

188

： [sage] 2018/04/14(土) 00:05:01.57

:qkjW2EcF

なんかわからんがすげーかっこいいな

189

： [sage] 2018/04/14(土) 03:08:10.81

:/xxepLwu

UCS/Unicodeっていう表現はどういう意味？

190

： [] 2018/04/14(土) 03:10:11.52

:lnTeyTPJ

ｇｇｒｋｓ

191

： [] 2018/04/14(土) 09:40:32.83

>>189

GNU/Linux みたいなもんだろ

知らんけど

192

： [] 2018/04/14(土) 16:05:24.15

:1T8oabCl

ISO-2022-JP/MIME
みたいなもんだと思ってた

193

： [sage] 2018/04/14(土) 21:53:33.44

:PZtN90rS

>>189

微妙な違いはあれど「ucsやunicodeなどと呼ばれてるもの」みたいな意味で使ってるんじゃないかなー。
x64/amd64みたいな？

194

： [] 2018/04/15(日) 10:32:04.48

:E1b18XLI

それはない

195

： [sage] 2018/04/25(水) 16:00:07.45

:5sIIQOD0

Yahoo!ニュースが突如「？？？？？」しか書かれていない記事を公開、閲覧者の脳内が「？？？？？」になる【修正済み】 - Togetter
外部リンク

ttp://jump.5ch.net/?https://togetter.com/li/1220498

外部リンク

ttp://jump.5ch.net/?https://headlines.yahoo.co.jp/hl?a=20180422-00000028-yonh-kr

もう修正されちゃったけど、文字化けの記録として。

196

： [sage] 2018/04/25(水) 16:01:07.60

:5sIIQOD0

Windows 10 機能更新プログラム (2018 Spring Release) における元号のレジストリ更新について – Japan New Era Name Support Blog
外部リンク

ttp://jump.5ch.net/?https://blogs.technet.microsoft.com/jperablog/2018/04/20/rs4-registry/

「？？」ってさあ……もうちょっと、こう、何か無かったのか。

197

： [sage] 2018/04/26(木) 10:43:23.40

:suNaxvFr

Googleが銃の絵文字を水鉄砲へ変更
外部リンク

ttp://jump.5ch.net/?https://blog.emojipedia.org/google-updates-gun-emoji/

198

： [sage] 2018/04/26(木) 15:21:01.42

:dlfZTwzS

>>196

でもどうしたらよかったんだろう

199

： [] 2018/04/26(木) 16:11:58.36

:obVS20md

>>197

これはひどい

200

： [sage] 2018/04/26(木) 19:04:18.92

:B7OLP04x

戦争の場が宇宙に移ったということだろう
水鉄砲というよりもSFにありそうなレーザーガンっぽいしw

201

： [sage] 2018/04/26(木) 19:35:12.68

:vM7mL5EC

なぶるとかの漢字も狩られちゃうー

202

： [sage] 2018/04/27(金) 04:11:19.93

:W2h8WuA6

過去の文献のニュアンスが変わってしまいそうだが大丈夫か……

203

： [] 2018/04/27(金) 07:59:57.84

卍が表示できなくなるのはいつですか？

204

： [] 2018/04/27(金) 17:46:31.89

:ash3pEtl

発電所の記号もだめか

205

： [sage] 2018/04/27(金) 17:59:20.13

:l9wD2n6W

>>203

双輪にしたらどうかな？ｗｗｗ

206

： [sage] 2018/04/28(土) 14:21:23.68

:sM690dJm

絵文字のデザインなんて前からコロコロ変わるゆるふわなものだってことじゃないの
U+1F3B1 BILLIARDS は例示ではキューと積まれたボールのデザインだったのに各メーカーは何が気に入らなかったのか知らんけど「8ボール」のデザインで実装
仕方ないので Unicode 12.0 では例示字形を変更し元々のキュー&ボールは U+1F93F BILLIARD GAMES として新たに追加(予定)とか
もう何でもありだなって思うわ。

207

： [sage] 2018/04/28(土) 17:41:47.97

:h8rwEw9O

モヤイとか昔から出しな

208

： [] 2018/04/29(日) 04:53:57.13

:4Tl9MZgN

毛沢東とかもそうだが
馬鹿ほど文字を替えたがる

209

： [sage] 2018/04/29(日) 22:48:21.31

:JU8sokja

元々auの絵文字が文字名はモヤイだけどグリフイメージがモアイだしなあ
そんでもってdocomo/Softbankへ送ると[モアイ]になるんだっけ？どっちだよｗ

210

： [sage] 2018/04/30(月) 04:31:43.91

:5AUwFsoY

モヤモヤするなあ

211

： [sage] 2018/04/30(月) 12:14:27.36

:5HYSW1VB

モアモア

212

： [sage] 2018/05/01(火) 21:01:23.78

:L301k72M

新元号への対応に向けた検証とテストケースについて
外部リンク

ttp://jump.5ch.net/?https://blogs.technet.microsoft.com/jperablog/2018/05/01/test-case/

現時点で新元号は発表されておりませんが、新元号に対しても合字を用意すべく、
弊社では Unicode コンソーシアムや日本政府、業界団体とともに
Unicode 上の文字コードの確保や新しい字形の作成、フォントの更新について準備を進めております。

新しい合字のコードポイント等については未確定の状況でございますが、
今一度、下記のような合字の表示、入力に問題がないかご確認ください。
また新元号の発表後に追加される合字を正しく表示するためにはフォントの更新 (合字のグリフの追加) が必要となりますため、
アプリケーションにてご使用のフォントについても確認が必要と想定されます。

- ㍻ (U+337B)
- ㍼ (U+337C)
- ㍽ (U+337D)
- ㍾ (U+337E)

また、合字を含めた検索や並べ替えについては、少々考慮が必要です。
弊社の Web 検索 "Bing" では、"㍻" を検索した際 ”㍻” と ”平成” の両方が検索されます。
一方、Word では "㍻" の検索の際には "㍻" のみが検索されます。
検索や並べ替えの動作についても正規化処理の状況によって異なる結果となることが予想されますため、
ご確認をいただくことをお勧めいたします。

213

： [] 2018/05/01(火) 21:40:31.70

年号に合字コード用意するのやめようぜ
普通に2文字使えばいいじゃん
どうしても組文字にしたければフォントじゃなくて
ワープロソフトとかDTPソフトにやらせてくれよ

214

： [sage] 2018/05/02(水) 08:28:01.76

:6hVpEKUT

ttp://jump.5ch.net/?https://twitter.com/KawamataAkira/status/990740397490978816

そういえば、MSKKの社員だった時代(1990年頃)、自分のまわりにいた日本人の技術者は全員元号のサポートに反対だった。
元号を入れたがったのはアメリカ本社のアメリカ人技術者。

日本人はそんなものサポートしたって面倒が増えるだけだと分かっていたけど、
各国の伝統文化を尊重したというポーズを取って得点を稼ぎたいアメリカ人とは利害が違ったのだと思う。

215

： [sage] 2018/05/02(水) 10:27:09.46

:dVOVl8hd

フォントで合字するのは別にいいよ
わざわざ文字コードに入れるのがアホなんや

216

： [] 2018/05/02(水) 15:41:15.94

:GW3J9sAd

佳子のもはよ

217

： [sage] 2018/05/02(水) 18:53:41.71

:R3g8E+PO

>>214

アメリカ左翼の弊害は底知れないね

218

： [sage] 2018/05/03(木) 01:34:21.57

:lB3Qws3m

>>214

その「元号のサポート」って機種依存文字エリアに合字の年号を入れることを指してる？
時刻の表示形式の「平成XX年XX月XX日」みたいなののことじゃ・・・

合字は伝統文化じゃないよね別に

219

： [sage] 2018/05/03(木) 22:41:08.91

:zfa+xthz

合字に関しては、直前２文字の表示幅を半分にする制御文字を追加すればいい気がする。
絵文字で肌色指定する制御文字がすでにあるので、それと同じ。
システムにフォント表示幅を変える機能が必要ではあるけど。

220

： [sage] 2018/05/03(木) 22:43:07.70

:7QWVobnZ

>>219

＞絵文字で肌色指定する制御文字がすでにある

そんなものあるの？Unicodeの理念からどんどん遠ざかっている気がする

221

： [sage] 2018/05/03(木) 22:49:28.42

:zfa+xthz

>>220

肌の黒い中国人とか表示可能。
👲👲🏻👲🏼👲🏽👲🏾👲🏿

222

： [sage] 2018/05/03(木) 23:02:39.59

:zfa+xthz

あー失礼。直前2文字ごとじゃなくて直前1文字ごとに設定すればいいだけか。

223

： [] 2018/05/04(金) 00:29:10.94

>>219

ゼロ幅接合子が漢字を対象に使われた場合は、その漢字同士で合字を作るようにすればいい

224

： [] 2018/05/04(金) 02:22:41.61

:hkSS9FCA

1文字単位で半角幅化できれば合字いらなくなるでしょ。

225

： [] 2018/05/04(金) 02:36:16.61

:9i+OMC2T

峠か

226

： [sage] 2018/05/04(金) 07:21:22.23

:u9M1T9G6

文字幅セレクタなんてもんができてしまったら
EAWもfullwidth領域もなんだったんだってことになるだろw

227

： [] 2018/05/04(金) 09:03:45.93

>>224

合字じゃないと縦書きのとき困る

228

： [sage] 2018/05/04(金) 11:52:27.49

:J+Z5/byg

単純に幅半分にしたら縦と横の線の太さがチグハグになりそう
フォント屋が頑張って調整すればいいか

229

： [sage] 2018/05/04(金) 18:46:40.30

:hkSS9FCA

ネ申 → 神

230

： [sage] 2018/05/04(金) 18:55:49.29

:hkSS9FCA

>>228

白黒の2色じゃなくて中間色を使うアンチエリアスが必要。
フォント屋の仕事じゃなくてOSレベル(例：WindowsのClearType)の範疇。
印刷時の見栄えを一致させるには、当然、印刷機も中間色への対応が必要。

231

： [sage] 2018/05/04(金) 20:48:04.97

:hEI+4DHq

縦倍角横倍角四倍角てのをふと思い出したわ

232

： [sage] 2018/05/04(金) 21:04:25.47

:SdH3E9b0

正体を単純に長体にすると視認性が落ちるからとCondensedやCompressedな書体を作ってるデザイナーが見たらガックリくるような話だな

233

： [sage] 2018/05/04(金) 21:36:34.74

:6o7jBY6i

このネタいつまで引っ張っても元号に文字コード割り当てようという考えが如何に頭が悪いかということを思い知らされるだけだ

234

： [] 2018/05/05(土) 04:12:58.69

:fc3S9c8B

少なくとも期間情報も含めないと意味無いし

235

： [] 2018/05/05(土) 09:14:26.61

これでその時点の元号を表示すればいいのか
<日本の元号を表すコード(共通)> <西暦年(100の位 : 6～20)を表す制御コード> <西暦年(0～99)を表す制御コード> <月(1～12)を表す制御コード> <日(1～31)を表す制御コード>

236

： [] 2018/05/05(土) 09:15:06.04

:fc3S9c8B

なるほど

237

： [sage] 2018/05/05(土) 13:12:46.35

:DMAq375N

文字コードとプログラミングの区別ができない人は、このスレに書き込まないほうがいい。

238

： [] 2018/05/05(土) 17:28:35.54

:JV+fv9fZ

>>235

順序はあるんだから
日本の元号を表すコード(共通)> <順序数コード>
で済むよね

239

： [sage] 2018/05/05(土) 21:59:51.63

:BTViOdFG

南北朝時代どうすんだ

240

： [] 2018/05/05(土) 22:12:48.38

:DMAq375N

全角文字を半角の幅で表示したい潜在需要は、中国や韓国にもあると思うます。

241

： [sage] 2018/05/05(土) 23:45:45.90

:gS+4uwRv

全角文字という概念がそもそも頭悪い感じ

242

： [] 2018/05/06(日) 00:56:49.53

:jLP2IXjH

7pt文字から36pt文字までコードを割り当てれば十分だと思う。

243

： [] 2018/05/06(日) 02:15:11.15

>>239

<日本の元号を表すコード(共通)> <王朝を表す制御コード> <西暦年(100の位 : 6～20)を表す制御コード> <西暦年(0～99)を表す制御コード> <月(1～12)を表す制御コード> <日(1～31)を表す制御コード>

244

： [sage] 2018/05/06(日) 05:44:27.92

:1UjbZZkI

「制御コード」？普通の2進コードじゃイカンのか？

245

： [] 2018/05/06(日) 07:32:19.99

Unicodeの仕組みをよく知らないので

普通の2進コードを書けるならそれで

246

： [sage] 2018/05/06(日) 08:53:27.43

:xzPVvKwY

そんなコード作ったところで検索もできないし、妄想の域にすらない
そもそも漢字で書ける元号に合字が必要かって話だし、まったく方向がおかしい

247

： [sage] 2018/05/06(日) 09:21:27.15

:p3sWeeXN

ID隠してる奴なんてあぼーんしとけ
おかしなやつに構う奴も荒しだからな

248

： [] 2018/05/06(日) 16:41:35.33

:89R5dh0N

てすと(ｴ・ω・`)
(ｴ◉◞౪◟◉)

249

： [sage] 2018/05/07(月) 01:07:40.66

:POBoMmsZ

Unicodeの次の概念とかはまだないのかな。それとももうみんなUnicodeに満足してしまっているのかね。

250

： [sage] 2018/05/07(月) 01:12:52.35

:JfD99IBd

universeの次がmultiverseなんだから次はmulticodeだろうね。
それかikuracode

251

： [sage] 2018/05/07(月) 02:29:48.88

:UwQrgiVu

Progressive Unicode、略してPunicode

252

： [sage] 2018/05/07(月) 02:33:09.58

:/2aX4qzY

glicoodeというやつが開発されてなんか賞取ってた気がする

253

： [sage] 2018/05/07(月) 09:24:31.55

:h5B8tWuv

もう変な合成記号類は多数あるし、漢字合字開始、漢字合字終了の2文字だけ定義しとけばいいんじゃないかな。

そうすれば未来永劫大丈夫だ(フォントさえ準備すれば)。北の人とかでも使えるし、なんなら金印とかハンコとかも好きなだけ合成できる。

254

： [sage] 2018/05/07(月) 11:16:00.13

:POBoMmsZ

>>252

グリコが開発したプログラミング言語じゃないの？
文字コードと関係なくね？

255

： [sage] 2018/05/07(月) 13:40:44.12

:HIVeR9DH

>>252

> glicoodeというやつが開発されてなんか賞取ってた気がする

o が１つ多すぎる
正しくは glicode
ポッキーの並べ方でプログラミングするって奴ね
詳しくは次のページを参照

外部リンク

ttp://jump.5ch.net/?http://cp.glico.jp/glicode/

256

： [] 2018/05/07(月) 14:05:14.59

:QMgv+0U5

「祇園」のフォントというかグリフって間違ってるよね？
Win10とAndroidは同じっぽいけどどっちも間違いの気がする

257

： [sage] 2018/05/07(月) 15:39:21.55

:tXPpG5gL

>>239

20年以上前にとあるDBマネジメントシステムに関わっていたんだけど、和暦対応を導入しようかって話が出てときに南北朝の話で揉めたよｗ
あの時はどうやって解決したんだっけかな……西暦→和暦変換の関数にオプションを付けたんだっけかな？ (覚えてないやゴメン)

258

： [sage] 2018/05/07(月) 16:11:49.95

:owHHQ9fb

>>257

明治5年以前は今使われている太陽暦とは違う暦、太陰太陽暦が使われていたんだけど
その変換はどうしてたんだろ

259

： [sage] 2018/05/07(月) 19:00:55.62

:tXPpG5gL

スレ違い気味の自覚はあるのでほどほどにしときます……

>>258

和暦と西暦の相互変換が出来れば十分という要件だったので、それほど困らなかった気が。
西暦→和暦の変換は問題ないよね？
んで、和暦→西暦の変換では存在しない日付を指定したらエラーにしていたんじゃなかったかな。
(例:明治5年12月3日は存在しないため、西暦に変換しようとしてもエラー)

なお上記では西暦と表記してるけど、実際にはグレゴリオ暦とユリウス暦の違いを意識していた記憶がある。
ただし、どうやって解決していたのか思い出せない…… (使えなくてすみません)。

260

： [] 2018/05/08(火) 16:23:34.87

:75TKeVia

どうせスレチなら現代でも太陰暦に変換するツールが必要

261

： [sage] 2018/05/08(火) 17:04:12.21

:K6jgn725

例えば1月30日が存在するかどうかは年ごとに違っていたそうな

外部リンク

ttp://jump.5ch.net/?https://ja.wikipedia.org/wiki/%E9%96%8F%E6%9C%88
>太陰太陽暦では月の満ち欠けに基づく「30日」と「29日」の二つであり、
>「30日」を「大の月」、「29日」を「小の月」とする。
>しかもこの月の大小は、月の満ち欠けの仕方などによってその順番が年ごとに変わる。

>太陰太陽暦ではこの太陰暦の12ヶ月に、約3年に一度、1ヶ月を加え13ヶ月とし、
>季節とのずれをなるべく少なくする調整をする。この挿入された月を「閏月」という。

>しかしながら閏月をどの時期に入れるかについては、同じ時代でも地域によって食い違うことがあった。
>例えば日本では古来より西日本では伊勢暦、東日本では三島暦が主に用いられたが、
>時として閏月を挿入する時期が異なっていたので、日本国内で日付の異なる暦を使っていた事がある。

262

： [] 2018/05/08(火) 17:15:53.32

:75TKeVia

今年は閏月抜いた方が良いくらい季節ずれてる

263

： [sage] 2018/05/08(火) 22:52:47.16

:kruQSPFC

結局Alternative Unicodeはまだ存在しないのか……。
Unicodeの制定が1993年なことを考えると、そろそろ別の規格が立ち上がってもいい筈なんだけどな。
Unicodeの仕組みが余程完璧ならいざしらず。

264

： [sage] 2018/05/08(火) 23:24:51.35

:91gJGUDl

Adobe、Apple、Facebook、Google、IBM、Microsoftといったコンピュータ業界の大会社がUnicode作ってるからなぁ
(実際あるのか知らないけど)他の方面からの立ち上がりに期待するしかないかと。

265

： [] 2018/05/10(木) 04:31:42.39

:zLx1ZI77

ローマ数字グリフはUnicodeではCJK互換用文字のように使用が推奨されないとどこかで読んだ記憶があるのですが、間違いでしょうか。
Wikipediaの当該項目を見てもそんなことは書いておらず、困惑してます。
もしも間違いなら積極的にローマ数字グリフを使っていきたいのですが……。

266

： [sage] 2018/05/10(木) 13:12:41.31

:MJdiSWqC

>>265

もしかして、これかな？
以下のページに「ただし、Unicodeの仕様では、これらは互換性用の文字であり、対応するラテン文字を用いる方が良いとされています。」という記載がある。

ローマ数字 - CyberLibrarian
外部リンク

ttp://jump.5ch.net/?http://www.asahi-net.or.jp/~ax2s-kmtn/ref/roman_num.html

Unicode Chart で Roman numerals (U+2160とか) を見てみると Compatibility decomposition mapping としてラテン文字が記載されている。
これを以って上記ページの筆者が「ラテン文字を用いる方が良い」と記載しているのなら、それは解釈が正しくないように思う。
あくまでも互換性があるよ、というだけの注記だと思うのだがどうだろうか。

ちなみに Compatibility decomposition mapping の説明は、こちら。
↓
Code Charts - Help and Links
外部リンク

ttp://jump.5ch.net/?https://unicode.org/charts/About.html#Key

267

： [sage] 2018/05/10(木) 14:54:38.17

:jFp8HxnE

ふむ

268

： [sage] 2018/05/10(木) 16:16:02.53

:buMLMZ9N

互換分解が設定されてるだけか

269

： [sage] 2018/05/11(金) 06:21:03.11

:LO7h3Lm8

>>266

ありがとうございます。理解できました。

270

： [sage] 2018/05/13(日) 14:16:53.12

:dvjI0llt

改元後も「平成」利用へ　納税や年金システム、混乱回避
外部リンク

ttp://jump.5ch.net/?https://www.asahi.com/articles/ASL5D4T75L5DUTFK004.html

271

： [sage] 2018/05/15(火) 05:04:52.91

:vxb29Zje

Unicodeの漢字構成文字ってどういうときに使うか分かりますか？

272

： [sage] 2018/05/15(火) 05:05:59.52

:vxb29Zje

すいません。漢字構成記述文字列のことです。

273

： [sage] 2018/05/16(水) 16:21:48.39

:MnaY7anS

18.2 表意の説明の文字

表意文字説明文字: U+2FF0–U+2FFB

　Unicode Standardには75,000以上のCJK統一的な表意文字が含まれていますが、非常にまれなCJK表意文字の何千もの文字はエンコードされていません。
エンコードのための追加の表意文字の目録の研究は続けられているが、潜在的な符号化可能な表意文字のセット全体が完全に使い果たされることはないと予想される。
特に、表意文字は引き続き作成され、そのような新しい硬貨は常にエンコードされません。

　表意文字記述ブロックの12文字は、符号化されていない表意文字を参照する必要があるテキストの標準的な交換の仕組みを提供します。
エンコードされていない表意文字は、これらの文字と符号化された表意文字を使用して記述できます。読者はその記述から表意文字の精神的な絵を作成することができる。

　このプロセスは、表意文字の正式な符号化とは異なります。符号化されていない表意文字の標準的な記述はありません。
記述された表意文字に割り当てられた意味はない。記述された表意文字には同値が定義されていません。概念的には、表意文字の説明は、
文字列<U+0065、U+0301>より英語のフレーズ「an ‘e’」に鋭いアクセントを付けたものに近い。

　特に、表意文字記述ブロック内の文字のサポートでは、レンダリングエンジンは記述された文字のグラフィック外観を再作成する必要はありません。

また、ユーザーが表意文字を使用して表す可能性のある表意文字の多くは、Unicode標準の将来のバージョンで正式にコード化されることにも注意してください。

274

： [sage] 2018/05/16(水) 16:22:58.76

:MnaY7anS

　表意記述アルゴリズムは、実質的に全てのCJK表意文字を、それ自体が表意文字であるより小さな部分に分解することができるという事実に依存する。
Unicode標準ですでにエンコードされている表意文字の広い範囲は、符号化されていない表意文字の大部分が表意文字を使用して表現できることを意味します。

　表象記述シーケンスは、主に符号化されていない表意文字を表すことを目的としていますが、符号化された表意文字を表すためにデータ交換に使用すべきではありませんが、教育的および分析的用途もあります。
たとえば、研究者は、U+86D9 蛙を「虫圭」としてデータベースに表現して、U+5A03 娃などの音声を共有する他の文字との間のリンクを提供することができます。
IRGは、このような方法で表意記述シーケンスを使用して、現行の作業のための、機械によって生成された最初の近似を提供するのに役立てています。

275

： [sage] 2018/05/17(木) 01:28:29.13

:zp+h7fJf

Google翻訳ですか？

276

： [] 2018/05/17(木) 12:27:06.84

:HY+Xmele

リンク貼るだけのレスの方がましだな

277

： [sage] 2018/05/18(金) 14:45:32.55

:Eucqc6d6

>>265

で「CJK互換用文字のように使用が推奨されない」とあるけど、その根拠ってどこにあるのか分かる方いますか？

日本語ウィキペディアには「後方互換性のために収録されており使用は推奨されない」と書かれてるけど、その根拠が明示されてないんですよね。
一応注釈も記載されてはいるんだけど、

>>266

と同じような資料なので「使用は推奨されない」とは読み取り難い気がする。
そこで英語ウィキペディアを見に行くと「for compatibility with east Asian character sets」とだけ書かれていて、「使用は推奨されない」という旨は一言も書いてない。

とまあ、こんなわけなので、この迷える子羊にどなたかご教示ください。

278

： [sage] 2018/05/18(金) 14:51:49.75

:Eucqc6d6

いけね、URL を貼り忘れてた。

CJK互換用文字 - Wikipedia
外部リンク

ttp://jump.5ch.net/?https://ja.wikipedia.org/wiki/CJK%E4%BA%92%E6%8F%9B%E7%94%A8%E6%96%87%E5%AD%97

CJK Compatibility - Wikipedia
外部リンク

ttp://jump.5ch.net/?https://en.wikipedia.org/wiki/CJK_Compatibility

279

： [sage] 2018/05/20(日) 21:42:19.91

:k7uIgkh0

10646/Unicodeでは非推奨とまでは定めていないと思うよ
ローマ数字はShift_JISだと化けやすいんでローマ数字の使用そのものが悪みたいに
思ってる人がいるだけだと思う

280

： [sage] 2018/05/20(日) 22:44:23.30

:SBKTPpMQ

0点、1点、2点、…とかMS明朝やゴシックに入ってるのを最初見た時、試合等の点数を表すためのものかと思ってた。
でも名称を調べて違う事を知った。そしてそれらは中国語のためのもので中国語では時刻の○時が○点になることも。

281

： [] 2018/05/21(月) 10:10:37.23

:PPw/imVw

>>280

282

： [sage] 2018/05/21(月) 10:11:23.00

:PPw/imVw

すまん送信ミス

>>280

初耳だった。俺もずっと日本語圏向けかと思ってたわ

283

： [] 2018/05/21(月) 10:13:27.36

:6DKDYwaD

0点
やり直せ

284

： [sage] 2018/05/21(月) 12:38:29.27

:3MQFDVVp

日本語フォントの場合は点を時に
韓国語フォントの場合は시に
繁体字フォントの場合は點に
はダメなんだろうか。

285

： [sage] 2018/05/21(月) 13:07:55.25

:5HdLEL73

日本語フォントの場合は時を時に
韓国語フォントの場合は時に
繁体字フォントの場合は時に
はダメなんだろうか。

286

： [sage] 2018/05/21(月) 15:22:15.07

:XnV9ry7u

CJK互換文字非推奨とかローマ数字非推奨とか、根拠の乏しいアピールがあちこちにあるのが気持ち悪い。
自分の好みを主張するのは構わないけど、Unicode でそのように提言されているかのように振る舞うのは気に入らない。
……という気持ちはどこにぶつければよいのだろうか？

287

： [sage] 2018/05/21(月) 15:47:01.21

:h7wqMmMV

取り敢えず

>>266

のリンク先の作者にぶつけるべきでは

288

： [sage] 2018/05/21(月) 21:39:44.96

:owdLx3Iu

㌀㌁㌂㌃㌄㌅㌆㌇㌈㌉
㌊㌋㌌㌍㌎㌏㌐㌑㌒㌓
㌔㌕㌖㌗㌘㌙㌚㌛㌜㌝
㌞㌟㌠㌡㌢㌣㌤㌥㌦㌧
㌨㌩㌪㌫㌬㌭㌮㌯㌰㌱
㌲㌳㌴㌵㌶㌷㌸㌹㌺㌻
㌼㌽㌾㌿㍀㍁㍂㍃㍄㍅
㍆㍇㍈㍉㍊㍋㍌㍍㍎㍏
㍐㍑㍒㍓㍔㍕㍖㍗㍘㍙
㍚㍛㍜㍝㍞㍟㍠㍡㍢㍣
㍤㍥㍦㍧㍨㍩㍪㍫㍬㍭
㍮㍯㍰㍱㍲㍳㍴㍵㍶㍷
㍸㍹㍺㍻㍼㍽㍾㍿

289

： [sage] 2018/05/21(月) 21:42:15.10

:owdLx3Iu

㎀㎁
㎂㎃㎄㎅㎆㎇㎈㎉㎊㎋
㎌㎍㎎㎏㎐㎑㎒㎓㎔㎕
㎖㎗㎘㎙㎚㎛㎜㎝㎞㎟
㎠㎡㎢㎣㎤㎥㎦㎧㎨㎩
㎪㎫㎬㎭㎮㎯㎰㎱㎲㎳
㎴㎵㎶㎷㎸㎹㎺㎻㎼㎽
㎾㎿㏀㏁㏂㏃㏄㏅㏆㏇
㏈㏉㏊㏋㏌㏍㏎㏏㏐㏑
㏒㏓㏔㏕㏖㏗㏘㏙㏚㏛
㏜㏝㏞㏟㏠㏡㏢㏣㏤㏥
㏦㏧㏨㏩㏪㏫㏬㏭㏮㏯
㏰㏱㏲㏳㏴㏵㏶㏷㏸㏹
㏺㏻㏼㏽㏾㏿

290

： [sage] 2018/05/21(月) 21:59:03.03

:V+3Z+fIi

頭がおかしくなりそうだ

291

： [sage] 2018/05/21(月) 22:38:58.14

:x+xM1a4p

絵文字テスト😁

292

： [] 2018/05/21(月) 22:58:22.68

:kKTehq+9

>>288

2バイト文字ってやはり狂っているな
なぜこのようなものまで一字で表示しようと考えたのか…
一字にすることで容量を節約できると考えたのだろうが、
その節約のために無駄な手間暇がかかり結果的にマイナスにしかならないという

293

： [sage] 2018/05/21(月) 23:23:05.67

:XnV9ry7u

そんな餌で俺様が釣られクマ―― (AA略)

>>286

これは同意。都合良く乗っかているのは不快だね。
Unicodeを嫌ったりするのは個々の自由だけど、その概念を人々に誤認させるやり口は卑怯だ。

>>292

揚げ足だけど、話の流れ的には2バイトじゃないです……
あと互換文字の存在が許せない派の人々って、結合文字や絵文字も絶滅させたいと思っているのだろうか。
まあ絵文字が気に入らない人は多数いるのだろうとは思うｗ

294

： [sage] 2018/05/22(火) 00:22:22.07

:3h/yZ372

肌色テスト👮
👮🏻👮🏼👮🏽👮🏾👮🏿

295

： [] 2018/05/22(火) 00:47:54.81

○囲み文字の1字版と2字版のテストもおながいします

296

： [sage] 2018/05/22(火) 00:49:04.48

:pl4uFglU

酔った勢いでレスしたら自演だった……恥ずかしい (いきなり酔いが覚めた)。
つまんないことしちゃってごめん、しばらく自重します。

297

： [sage] 2018/05/22(火) 04:36:23.18

:XuSnYVx6

絵文字そのものはどうとも思ってないけど
通常の文章の中で使われる矢印がある種の入力環境だと絵文字で入力されるみたいで
「←このように」が「⬅このように」ってなるのがすごく気持ち悪い。UnicodeというよりIMEに対する不満。

298

： [sage] 2018/05/22(火) 11:48:04.68

:3h/yZ372

全角チルダがwindowsユーザーとmacユーザーで違うのも厄介
windows ～
mac 〜

299

： [] 2018/05/22(火) 11:57:18.21

:xGwd/XeK

①②③④⑤⑥⑦⑧⑨⑩⑪⑫⑬⑭⑮⑯⑰⑱⑲⑳

300

： [sage] 2018/05/22(火) 13:21:47.84

:XuSnYVx6

>>299

〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓
文字化けしてますよ。

301

： [sage] 2018/05/22(火) 13:35:03.46

:d3LCNcLv

ｵﾏｴｶﾞﾅｰ

302

： [sage] 2018/05/22(火) 13:36:25.53

:1HkhrVs+

プッ

303

： [sage] 2018/05/22(火) 14:15:36.11

:3h/yZ372

化けてますよ。
👻 🎃 👹 👺 👽 💀 🧛 🧟

304

： [] 2018/05/22(火) 14:35:44.60

:xGwd/XeK

🏇̪鹿
🐎鹿
🐴鹿

305

： [sage] 2018/05/22(火) 14:45:39.70

:3h/yZ372

ひょっとしてバカなの？
🏇🦌
🐎🦌
🐴🦌

306

： [sage] 2018/05/22(火) 18:00:59.35

:KBN0pglL

>>305

化けてんぞバーカｗｗｗｗｗ

307

： [sage] 2018/05/22(火) 18:47:42.14

:XuSnYVx6

ということにしたいのですね

308

： [sage] 2018/05/23(水) 02:23:03.50

:Z0QXrqgL

unicode と ISO10646 は互換性があるけど適用範囲とか微妙に違ったりする。
非推奨とかはISO/JISの方を念頭に置いた話ではなかろうか。

309

： [sage] 2018/05/23(水) 18:48:25.05

:2DlA2Ju+

ローマ数字の話だよね？
ISO/IEC 10646にもそんな規定は無いような……コードチャートはUnicodeと同じもの使ってるし。
JIS X 0221の方は真面目に読んでないからよく分からんが……
でもISO/IEC 10646の国際一致規格な以上日本独自でそんな規定は入ってないと思うけど。

310

： [sage] 2018/05/24(木) 01:13:38.27

:Nk0sJPwS

>>309

私は話題に割り込んだだけで、話題の出処がどこか知らないのでローマ数字限定かわからないけど、
「組」や「日本語文字レパートリ」とか、その辺の話が歪んでか大げさかで伝わってるじゃないかと。

311

： [] 2018/05/24(木) 01:29:22.08

:fftgGS82

ここにはまだ来てないのか

312

： [sage] 2018/05/24(木) 14:00:09.03

:A4JtYMZ4

ローマ数字やCJK互換用文字が「推奨されない」という記述がブログやWikipediaに散見されるけど、それって根拠が無いよね？という話だと思って眺めてるよ。
こういう聞こえの良いデマを否定するのは体力がいるから面倒そうだよなー

313

： [] 2018/05/24(木) 14:03:05.24

:fftgGS82

ⅠⅡⅢⅣⅤⅥⅦⅧⅨⅩⅪⅫ
Ⅽ
Ⅿ
ↂ

314

： [sage] 2018/05/25(金) 01:56:34.37

:562g8vT6

>>312

いつものネット伝言ゲームじゃないか？
日本語での利用を前提として、うろ覚えだけど
1. ISO10646とユニコード規格は厳密に言えば同じではない(事実)
2. ISO10646 は部分実装を許しているための全ての文字が等価ではない(事実)
3. ISO/JIS は部分実装のために日本語向けの文字の組を決めてる(事実)
4. ユニコード実装するならば、日本語向けの文字の組のうち主要なもにには対応すべき(たんなる日本人の願望)
5. ネットなどで不特定多数との通信する前提の場合には、主要な組に入ってない文字は相手側で読めない可能性があるので推奨しない(どこかの個人の意見ならわからなくもない)
6. 日本語のための文字の組にはローマ数字は含まれていない(微妙、ISO規格本体にはまだ入ってないが、JISの参考になら含まれた気がする)
...
中略
...
99.ユニコード規格でローマ数字は推奨されない(デマ)

315

： [sage] 2018/05/26(土) 14:41:00.14

:OAwkZ9ha

> 6. 日本語のための文字の組にはローマ数字は含まれていない(微妙、ISO規格本体にはまだ入ってないが、JISの参考になら含まれた気がする)

昨年末の ISO10646の改訂でJISが参考で定義していた COMMON JAPANESE も正式にISO規格に取り込まれた模様。
ということでローマ数字は BASIC JAPANESE には含まれてないけど COMMON JAPANESE には含まれてるくらいの位置付け。

316

： [sage] 2018/05/26(土) 22:58:23.91

:oSB4DgY3

285 BASIC JAPANESE と 287 COMMON JAPANESE が 10646 に入ったのは10年前の ISO/IEC 10646:2003/Amd 3:2008 じゃないの？
昨年末の改訂とか正式にISO規格にって何の話？

317

： [sage] 2018/05/26(土) 23:54:42.44

:OAwkZ9ha

もう JIS参考でも、amd でもなくて、正式規格本体にあるよ。情報古かったという話。
Amd3:2008 にあるんなら正式規格 ISO/IEC 10646:2012 にもあるかもしれん。確認できんけど。

318

： [sage] 2018/05/27(日) 10:24:34.33

:rLKmcl7g

規格本体に入ったのは ISO/IEC 10646:2011

319

： [sage] 2018/05/28(月) 01:39:25.84

:Ci0ddO0a

>>286

,312
CJK互換文字のラウンドトリップ用のものはUnicode規格書に明記されてる

> They are included in the Unicode Standard to provide full round-trip compatibility
> with the ideographic repertoire of ... and should not be used for any other purpose.
外部リンク

ttp://jump.5ch.net/?http://www.unicode.org/versions/Unicode10.0.0/ch18.pdf#page=21

320

： [sage] 2018/05/28(月) 13:25:04.14

:+smoTcYJ

「推奨しない」でたね

321

： [sage] 2018/05/28(月) 14:52:12.71

:AZENlZb2

素晴らしい。こういうちゃんとした情報は歓迎するよ。
そうか、CJK互換文字の利用は「推奨しない」と仕様書に明記されているんだね。覚えておこう。

322

： [sage] 2018/05/28(月) 16:00:24.98

:OZmKBhwA

「完全なラウンドトリップ互換性の為に提供するものであり、それ以外の使用は推奨しない」
だから問答無用で“should not be used”と言ってる訳じゃないけどね。

323

： [] 2018/05/28(月) 22:09:23.88

こまけえこたあいいんだよ

324

： [sage] 2018/05/29(火) 11:31:12.88

:gAWLYOTz

>>319

お前、その省略酷くないか。わざとか？
ソースちゃんと確認せずに信じる奴が悪いのか。
こうやってネット伝言ゲームでデマが広まるのか。

325

： [] 2018/05/29(火) 11:40:21.01

:QKhV4oKb

伝聞デマの好例

326

： [sage] 2018/05/29(火) 18:40:11.76

:P35/pWO/

結局デマじゃないんでしょ？

327

： [sage] 2018/05/29(火) 22:34:44.54

:j6aBPmpG

324は何を怒ってるんだ
319のフレーズは複数回出てきてその都度...の部分の規格書名が変わるだけだろうに

328

： [sage] 2018/05/30(水) 12:07:23.64

:iPjSEnXB

いやだからUnicode公式が推奨しないと言ってるのは事実なんだろ。デマじゃないじゃん。
なんでもかんでもデマ扱いすれば自分が偉くなったような錯覚になって気分が良いのかもしれないが
迷惑だよ、そういう態度は。

329

： [sage] 2018/05/30(水) 13:24:00.49

:uOQbJF8C

>>328

CJK互換文字の使用が推奨されないのは事実だけど、ローマ数字が推奨されないのはデマってことなんじゃないの。
それと2行目以降は蛇足だろ。

330

： [sage] 2018/05/30(水) 14:33:31.86

:glkZKJxk

復旧
🖕🏻🖕🏼🖕🏽🖕🏾🖕🏿🖕

331

： [sage] 2018/05/30(水) 20:29:52.46

:+kRmOuNK

>>329

多分違う。
「CJK互換文字の一部には特定目的以外に使用すべきでない文字がある」が正しい。
318 はわざとか天然かは知らんが、CJK互換文字の一部にしか適用されないルールを、適用範囲の部分を抜かして引用して、あたかも全体に適用するルールであるかのように誤解する書き方をしてある。
あとは、それを鵜呑みした迂闊さんが「CJK互換文字は推奨されない(キリッ)」ってデマを広げる構図。

332

： [sage] 2018/05/30(水) 20:46:20.24

:/bFYrAtR

だから「ラウンドトリップ用」って話だろ？

333

： [sage] 2018/05/30(水) 20:50:56.47

:+kRmOuNK

>>331

タイプミス。318→319

334

： [sage] 2018/05/30(水) 20:55:57.87

:+kRmOuNK

>>332

限定せずに「ラウンドトリップ用」って書いたらCJK互換文字全体だろ。
「JIS X 0213:2000のためのラウンドトリップ用」はその一部でしかない。

335

： [sage] 2018/05/30(水) 21:06:09.88

:JjJ1rb8T

気に入らないなら自分で満足の行くように書き直して貼り付ければ？
典拠示されてるんだから。

336

： [sage] 2018/05/31(木) 00:48:48.00

:Rt4SPplt

そんな中途半端に書き直して貼り付けるからデマの元になるんだろ。反省しろ。

337

： [sage] 2018/05/31(木) 05:31:03.12

:fKyHNhNo

デマはどっちだよ……「CJK互換文字は」という文脈からは「CJK互換文字に含まれる全ての文字は」という意味しか受け取れないのだが？
「一部」なんていう表現はどっから湧き出てきたんだよ……。

338

： [sage] 2018/05/31(木) 09:53:50.67

:Rt4SPplt

>>337

おまえはどこの「文脈」を読んだんだ？
とりあえず本物の規格読んでこい。

339

： [] 2018/05/31(木) 12:04:29.61

ケチ付けるんなら他人を納得させられる論拠と出典を出せよ
それができないんなら『CJK互換文字の利用は「推奨しない」』が正解だ

340

： [] 2018/05/31(木) 15:11:25.68

:LXR1oL3d

南京大虐殺は30万人アルニダ

341

： [sage] 2018/05/31(木) 20:31:47.82

:fKyHNhNo

誰か結論下さい（他力本願）。

342

： [sage] 2018/05/31(木) 23:08:01.93

:CO1u2co/

>>319

のリンク先の規格書で、ラウンドトリップ用だから使用を推奨しないとされているのは以下の3種類だけ。
全体を非推奨とはしていないな。
・U+FA30～U+FA6A (JIS X 0213:2000)
・U+FA6B～U+FA6D (ARIB STD-B24)
・U+FA70～U+FAD9 (KPS 10721-2000)

343

： [sage] 2018/06/01(金) 05:30:12.89

:vog2AnDp

誰が誰かよくわかんないけど少なくともCJK互換漢字の一部に関しては
非推奨の根拠はあったってことでしょ

不正確だと思ったならそうじゃなくてこうだって言えばそれで済んだ話だろうに
そうせずにネチネチ言うばっかだから無駄に荒れる

344

： [sage] 2018/06/01(金) 07:06:38.23

:RdSMK5as

俺も

>>320

>>321

には違和感があったわ。

345

： [sage] 2018/06/01(金) 08:37:44.05

:d/KZJvqH

>>343

一部でしかないのを全部のように言うから伝聞デマって言われたんだろ。

346

： [] 2018/06/01(金) 11:58:37.96

>>342

一般の開発者やユーザーは「CJK互換文字の利用は推奨しない」で覚えておいた方が漏れがなくて安心だな

347

： [] 2018/06/01(金) 12:07:07.22

:uCsHgk1n

規格書嫁とか無茶言うやつがいます。
あれは暗号で書いてあるので書いた人にも読めません。

348

： [sage] 2018/06/01(金) 12:41:04.24

:gevSrdmF

あなたの能力の限界が人並み外れて低いからといって他人を同類扱いするのは良くない

349

： [sage] 2018/06/01(金) 14:43:43.87

:s/+fnCQL

>>346

お前のような拡大解釈したいやつは「ユニコードの利用は推奨しない」で覚えておけば漏れがなくて完璧だな。

350

： [sage] 2018/06/01(金) 22:29:28.35

:/Zhh/Hrk

>>346

CJK互換漢字 (CJK Compatibility Ideographs) : U+F900～U+FAFF と
CJK互換用文字 (CJK Compatibility) : U+3300～U+33FF は別物。

>>319

で非推奨とされたのはCJK互換漢字(の一部)で、CJK互換文字ではない。

351

： [] 2018/06/01(金) 22:43:44.67

>>349-350

こまけえこたあいいんだよ
逆に覚えたらどうするんだよ
「CJK互換」と付いてる領域は非推奨と覚えれば簡単だろ

352

： [sage] 2018/06/01(金) 23:15:14.57

:/Zhh/Hrk

>>351

何のためにこんな専門スレにいるんだろうな
いっその事「文字コードの利用は推奨しない」で覚えておけば漏れがなく簡単だな

353

： [sage] 2018/06/01(金) 23:19:16.78

:d/KZJvqH

既にデマは溢れてるので、今さら少しくらいデマが増えたところで、どうってことないという見方もあるが
規格の話をするなら細かい点を無視するとかありえない。

あえて

>>350

にさらに細かい点をつっこむと
U+3300 - U+33FF は CJK互換ブロック(CJK Compatibility Block)
U+F900 - U+FAFF は CJK互換漢字ブロック(CJK Compatibility Ideograph Block)
とするのが正しいはずで「CJK互換文字」というのは表現は規格にはなかったと思う。

他にも
CJK Compatibility Forms (U+FE30 - UFE4F)
CJK Compatibility Ideograph Supplement (U+2F800 - U+2FA1D)
とかもあるので、勝手な名前とか使い始めるのはデマの元。

354

： [] 2018/06/02(土) 03:00:41.99

弊社の開発プロジェクトでは「CJK互換」と名の付く文字は一律使用禁止とします

355

： [sage] 2018/06/02(土) 05:43:50.91

:6Boi961X

Unicodeが公式に「利用を推奨しない」と明言しているのはCJK互換表意文字のそれも一部ってことはデマじゃないよね？

356

： [sage] 2018/06/02(土) 06:07:25.49

:23A3G5JH

ここまでの議論読ませてもらったが
「利用を推奨しない」
と
「(他規格)との完全ラウンドトリップ互換を提供すためにユニコード規格に含まれている、それ以外の目的に使用すべきではない」
とだと規格上の意味が全然違う気がするんだが？
前者は利用の否定で、後者は利用目的の限定で利用は否定してない。

357

： [sage] 2018/06/02(土) 08:33:48.72

:6Boi961X

>>356

「全然」ではなくね？
少なくとも「利用を推奨しない」は後者の意味も含んでるでしょ。完全に数学的な含有じゃないにせよ。

358

： [sage] 2018/06/02(土) 13:06:52.93

:23A3G5JH

「これは食べられません」
と
「電子レンジ調理専用」

359

： [] 2018/06/02(土) 13:52:43.55

:yUEJ+BJS

Scheduled maintenance on June 2 and June 9 between 5am pst and 6pm pst. Expect down times of up to 5 hours while we upgrade the power feeds in our data center.

５ちゃんねるサーバ群が収容されているデータセンタにおいて給電装置の更新のため閲覧書き込みが出来なくなります
予定されている期間は以下の通りです
２０１８年６月２日（土）２１時から２０１８年６月３日（日）１０時
２０１８年６月９日（土）２１時から２０１８年６月３日（日）１０時
上記時間帯のうち最大５時間程度の停電が発生すると予想されています

不便をお掛けしますがよろしくお願い致します

360

： [sage] 2018/06/02(土) 14:10:17.27

:m4wz3xzo

>>359

?
＞２０１８年６月９日（土）２１時から２０１８年６月３日（日）１０時

361

： [sage] 2018/06/04(月) 17:00:48.61

:pTAw0294

>>342

マジか、マジだ
つまり最初に入ったKS X 1001/Big5/IBMは仕様書上では何も言われてなくて
後から入ったJIS X 0213とかは「ラウンドトリップ以外の使用は推奨しない」と明記なのか。

こんなことならJIS X 0213も無理してBMPに入れずにCNS 11643の残りと一緒にCJK統合漢字拡張Bに入れてもらえばよかったのに
(それが可能だったのかどうかは知らない)。

362

： [sage] 2018/06/04(月) 23:13:57.26

:M5dk3jbS

後半、ちょっと違うんでは？ JIS X 0213 の追加漢字は別に無理して BMP に入ってない。普通に Exntend の方に入ってる。
JIS X 0213 と Unicode の包摂基準の違いから1対多対応の部分があって、ラウンドトリップを保証したかったら互換文字が必要になった。
そして必要な互換漢字は少数で、たまたまBMPのCJK 互換漢字漢字ブロックの後半がガラ空きだったので、そこにつっこまれた。
って話だったと思う。

363

： [sage] 2018/06/04(月) 23:20:06.40

:M5dk3jbS

規格がいってるのは CJK互換漢字ブロックはもともと複数の文字コードとのラウンドトリップ用なんだけど、
指定した一部の範囲は "JIS X 0213:2000" とのラウンドトリップ専用で、他の文字コードとのラウンドトリップにも使うべきではないということ。

364

： [sage] 2018/06/06(水) 14:26:39.66

:R+kWiM6Z

Announcing The Unicode Standard, Version 11.0
外部リンク

ttp://jump.5ch.net/?http://blog.unicode.org/2018/06/announcing-unicode-standard-version-110.html

365

： [sage] 2018/06/07(木) 22:48:02.08

:YXHr2tyJ

Unicode 11.0出たのか、つかもう一年経ったのか……。

> Five urgently needed CJK unified ideographs: three for newly standardized names of chemical elements, and two for Japan's government administration Moji Joho Kiban Project that includes ideographs for personal and place names

へー、これは知らなかった。

366

： [sage] 2018/06/07(木) 23:56:45.77

:LqY2ZR0d

一昨年末に名称が正式決定したニホニウム等の元素を表す漢字がUROの末尾に追加になったんだな。

367

： [] 2018/06/08(金) 00:10:00.49

そんなもんで漢字増やすなや！

368

： [sage] 2018/06/08(金) 14:59:48.37

:HNv18lZE

去年も書いたけど
Core Specification
Appendix D
Version History of the Standard
の漢字のとこの数字が足した数と合計で合わないんだよなぁ
48違うって何なんだろ。

369

： [sage] 2018/06/08(金) 23:58:07.79

:ljSzk/l3

CJK統合漢字のUROの空きコードポイントは残り16個か。次でとうとうU+9FF0番台になる。
それらも全部使い切ったらその次の少数の緊急に必要な漢字追加は拡張A末尾の空きU+40B6～Fを使う事になるのかな。
でそこも使い切ったらBMPへの漢字追加は本当に終わりで拡張BやC、D…の末尾の空きを使用ってことになるんだろうな。

370

： [] 2018/06/09(土) 00:37:24.38

:8sRiN6h8

文字列置換から除外するための一時退避の需要あるでしょ。
unicodeはプログラマが自由に使っていい領域ってどこだろう。

371

： [] 2018/06/09(土) 01:02:14.54

「外字」でウィキれ

372

： [sage] 2018/06/09(土) 09:13:51.52

:8sRiN6h8

>>371

回答ありがとう。
UnicodeのU+E000からU+E757あたりを使えばSJISにも対応できそう。

373

： [sage] 2018/06/09(土) 19:05:32.10

:roRwdie6

curl '

ttp://jump.5ch.net/?http://www.unicode.org/Public/UCD/latest/ucd/UnicodeData.txt' | wc -l
とやると
32292
と返ってきたんだけど、つまり今現在Unicodeには32292文字が収録されていると思っていいのかな。

374

： [sage] 2018/06/10(日) 06:07:59.44

:gv3HXRco

何？結局16バイトに収まってたという話？

375

： [sage] 2018/06/10(日) 06:08:19.99

:gv3HXRco

ビットだ……恥ずかしい

376

： [] 2018/06/10(日) 15:33:08.87

:mkooDB8i

>>373

中身を見ればわかるけど漢字領域 (4e00 から 9efe) とかは
飛ばしてあるから全然違う。

377

： [sage] 2018/06/10(日) 16:00:53.49

:aEB47NCz

Android P Beta 2、グリーンサラダの絵文字からゆで卵が消える | スラドデベロッパー
外部リンク

ttp://jump.5ch.net/?https://developers.srad.jp/story/18/06/09/0621201/

ゆで卵を入れる多様性は許されないのか

378

： [sage] 2018/06/11(月) 13:52:38.76

:HvQh9O78

ジェンダーの方もなんか過剰だよね。政治的な活動家でもいるのかね

サラダの絵文字からGoogle、「卵」を排除　生産者団体が異議、「卵を返せ」論争に
外部リンク

ttp://jump.5ch.net/?https://www.j-cast.com/2018/06/09330966.html?p=all

379

： [sage] 2018/06/11(月) 16:02:07.37

:yunMmu3l

なんか力抜けたわｗ

380

： [sage] 2018/06/12(火) 21:57:09.59

:ZlrY5GZ7

>>376

収録されている全文字を取得するにはどうしたらいいかな…

381

： [] 2018/06/13(水) 00:45:51.71

どうなってんのこれ🤔

🌕🌔🌕🌕🌕🌕🌕🌕
🌕🌒🌕🌕🌕🌕🌕🌕
🌖🌓🌕🌕🌔🌕🌕🌕
🌖🌒🌕🌗🌑🌔🌕🌕
🌖🌑🌔🌘🌒🌕🌕🌕
🌕🌘🌑🌑🌑🌑🌒🌕
🌕🌕🌘🌑🌑🌑🌑🌒
🌕🌕🌖🌑🌑🌒🌗🌓
🌕🌕🌕🌘🌑🌑🌘🌔
🌕🌕🌖🌑🌑🌑🌘🌔
🌕🌕🌗🌑🌑🌑🌖🌔
🌕🌕🌕🌘🌑🌑🌕🌔
🌕🌕🌕🌗🌒🌘🌔🌕
🌕🌕🌕🌗🌒🌖🌒🌕
🌕🌕🌕🌗🌓🌕🌒🌕

382

： [sage] 2018/06/13(水) 00:55:38.87

:ixGTG5kv

5ちゃんでemojiのAAは文字数制限が厳しいからどうしても小さくなりがちだな

383

： [sage] 2018/06/13(水) 06:58:34.14

:mbRQ9skB

なにか問題でも？
🧙🧚🧛🧜🧝🧟
🧙🏻🧚🏻🧛🏻🧜🏻🧝🏻🧟🏻
🧙🏼🧚🏼🧛🏼🧜🏼🧝🏼🧟🏼
🧙🏽🧚🏽🧛🏽🧜🏽🧝🏽🧟🏽
🧙🏾🧚🏾🧛🏾🧜🏾🧝🏾🧟🏾
🧙🏿🧚🏿🧛🏿🧜🏿🧝🏿🧟🏿

384

： [sage] 2018/06/17(日) 09:04:29.91

:89kw/R7U

ユニコードとUTF8は何が違うんでしょうか
どちらもユニコード？それとも別のコード？頭がおかしくなりそうです
SJISだけで全て丸く収まっていた平和な日本にとんだ黒船がやってきた・・・

385

： [sage] 2018/06/17(日) 09:50:58.25

:GftzeAnS

アップル外字どうなの


386

： [sage] 2018/06/17(日) 12:32:46.14

:IMOrQ/Bc

>>384

文字集合と文字符号の違いならわかる？

387

： [] 2018/06/17(日) 12:38:22.96

>>384

まずはウィキってこい
その上で分からないことがあれば質問しろ

388

： [sage] 2018/06/17(日) 12:51:10.01

:usQhZnOB

Shift_JISだって文字集合違ったりベンダ固有拡張あったりで
全然丸く収まってないよ殴り合いだよ

389

： [sage] 2018/06/17(日) 13:31:33.71

:wUKxAbyR

MSのgithub買収でVSからclone出来ないリポジトリが増えて
SJIS消えてくれたらいいのに
っていうかwindowsの標準localeでUTF-8選びたいんだが
chcp65001はもういやバグだらけ

390

： [sage] 2018/06/17(日) 13:54:11.58

:bLV6Ydf8

>>389

今のWindows10ではUTF-8選べるから人柱になってくれ

391

： [sage] 2018/06/18(月) 01:32:33.22

:44rsiuEs

linux つかってる俺はUTF8統一で隙はなかった。
そういえばGO言語ってソースコードはUTF8で書けって仕様で規定されてるんだな。(変な文字変数名に使えてビビった)

392

： [sage] 2018/06/18(月) 15:52:30.27

:54OwzSMe

sjisはまだ許せる。utf16てめーはダメだ
内部コードに留めてメモリから外に出てこないでくれ

393

： [sage] 2018/06/18(月) 16:14:38.61

:q6319o4n

std::wstringがデフォルトでUTF-32になるLinux 64bit版のSTLにも同じこと言えんの？

394

： [sage] 2018/06/18(月) 16:17:38.73

:HrWV3yi6

SJISは完全に廃用でおｋ

395

： [] 2018/06/18(月) 16:32:51.52

:UtQrM811

ほんそれ

396

： [sage] 2018/06/18(月) 17:04:46.60

:EvkbZGBx

char32_tのある今、wchar_tの存在価値なんて無いでしょ
環境依存する上にWindowsではUTF-16ということで1要素1文字の前提も崩れてるし

397

： [sage] 2018/06/18(月) 20:41:12.57

:44rsiuEs

誰に賛成して、誰に反対しているかわからん。安価つけろ。

398

： [sage] 2018/06/19(火) 07:29:13.13

:DGMT9Nzy

？

399

： [sage] 2018/06/19(火) 23:25:00.68

:3zIXQUO/

A社やG社始めメジャーなクラウド系サービスは全部UTF-8だな

400

： [sage] 2018/06/20(水) 01:39:40.00

:xDrhFFX5

でも客にはSJIS対応を求められる不思議

401

： [sage] 2018/06/20(水) 01:55:53.31

:9U83APqd

意味がわからないよな
SJIS神話は何なのだろう
ジジイだけでなく中年や、中には学生にまであるよねww
学生なんて生まれたときからUTF-8の環境にいるはずで、
わざわざ使いにくい環境をどこで覚えてくるんだろうと怖くもあるww

402

： [sage] 2018/06/20(水) 02:06:06.18

:xDrhFFX5

日本語が２バイトで済む安心感じゃないの？
あと、最近の根拠もなく他国をおとしめて喜んでいる類の人達には、
日本専用のコード体系かっけーさすが日本すげーとか思ってそう。

403

： [sage] 2018/06/20(水) 06:24:00.33

:ZRnpXX67

>>402

日本のビジネスデータは全銀フォーマット等のような固定長が基本だから
文字のバイト数が可変のUTF8は向かないんだよね
うちのシステムでも、相手がUTF8で作ったテキストを送りつけてきて
大事故になったことがあった

404

： [sage] 2018/06/20(水) 08:03:37.13

:Va19lMsb

日本はまだマシで英語しか知らない欧米の連中だと「文字は1バイト」が常識だから
多言語化してても日本語を表示すると半分しか表示されないとかザラ。
最近はライブラリの整備や（通常全角幅の）絵文字の浸透のおかげで欧米の保守層にも文字コードの概念が伝わってるけどね。

405

： [sage] 2018/06/20(水) 08:52:51.05

:OmEBDQrT

絵文字どころか10年以上前流行ったような古い日本の全角顔文字発掘してきて使ったりしてるよな最近

406

： [] 2018/06/20(水) 15:17:43.40

:OnxnZInx

>>401

ほんそれ

407

： [] 2018/06/20(水) 15:19:01.43

:OnxnZInx

>>403

なるほど
だとするとEBCDIC対応を求められても不思議じゃないな

408

： [sage] 2018/06/20(水) 17:02:56.44

:AAtEE73s

utf-8で何も考えずにソートしたら漢字の並びが非直感的になるから
しぶしぶsjis

409

： [sage] 2018/06/20(水) 19:18:14.29

:d5aRGVoI

>>404

想像で言ってるだろ

410

： [sage] 2018/06/20(水) 19:25:53.85

:/OAGNKMT

このスレは、Windowsを実務PCとして使ってない人が愚痴をこぼすスレですか。

411

： [sage] 2018/06/20(水) 19:50:25.18

:FyXniq7l

ほんそれ。
Windows使ってりゃSJIS要求するのは普通だし、そのWindowsはレガシーとしてSJISを捨てられないだけだし。
神話とか日本専用コードとかｗ

412

： [sage] 2018/06/20(水) 20:58:05.50

:Va19lMsb

Windowsの文字コード周りで唯一好きなのは改行コードが\r\nである点。
他の環境ではLFだけという実際に即していないコードだから嫌。
LFなら普通は「桁位置はそのままで次の行に」でしょ……
abc\n
　　de
↑こうなるべき。

413

： [sage] 2018/06/20(水) 21:28:20.83

:FyXniq7l

Windowsは互換性のためしょうがない部分はあるが、そういうのは\e[でやってろって感じだな。

414

： [sage] 2018/06/21(木) 01:11:25.06

:M+oxnni+

>>412

改行コードなんだから当たり前だろ。寝ぼけんな。
CR は改行コードじゃなくて復帰コードな。ラインプリンターに出してるわけじゃないので復帰コードが必要かどうかは仕様依存。

415

： [sage] 2018/06/21(木) 01:29:39.14

:9yZQgWTf

ラインプリンター由来じゃなくてタイプライター由来じゃないの
キャリッジリターン
ラインフィード

416

： [sage] 2018/06/21(木) 01:34:17.28

:M+oxnni+

>>415

タイプライターに文字コードは必要ない。
正確にはテレタイプ端末とかテレプリンターとか呼ばれてた奴なんだが、要はラインプリンターだ。

417

： [sage] 2018/06/21(木) 01:45:44.30

:9yZQgWTf

じゃあラインプリンターにもキャリッジあるの？
外部リンク

ttps://www.e-bridge.jp/eb/tcontents/yasasikunai-p/images/imageA001.jpg

418

： [sage] 2018/06/21(木) 02:17:29.23

:vn+zRuHD

ラインまるごと打つからラインプリンターなんだよねｗ

419

： [] 2018/06/21(木) 09:07:52.61

:y5k3a+mj

MACみたいにCRだけっていうのは病気だけど

CR+LFが来たら常にCR無視しておけばいいし
自分で出力するときはLFだけ出力しておけばいい
それだけ

420

： [sage] 2018/06/21(木) 09:41:35.70

:CR9+5isI

Why is the line terminator CR+LF?
外部リンク

ttp://jump.5ch.net/?https://blogs.msdn.microsoft.com/oldnewthing/20040318-00/?p=40193

If you go to the various internet protocol documents, such as RFC 0821 (SMTP), RFC 1939 (POP), RFC 2060 (IMAP), or RFC 2616 (HTTP),
you'll see that they all specify CR+LF as the line termination sequence.
So the the real question is not "Why do CP/M, MS-DOS, and Win32 use CR+LF as the line terminator?"
but rather "Why did other people choose to differ from these standards documents and use some other line terminator?"

421

： [sage] 2018/06/22(金) 13:23:16.23

:zvOmzJZB

そのブログは CR + LF を正当化してるけど、テキストファイルの改行は
単に行のデリミタであって、カーソルの移動を意味してるわけじゃないと思うんだよね

422

： [] 2018/06/22(金) 15:59:28.46

:MYEvMa8B

International Business Machines

423

： [sage] 2018/06/22(金) 21:46:22.33

:Lyh+6zOM

HAL 9000
"I'm sorry, Dave, I'm afraid I can't do that."

424

： [] 2018/06/26(火) 16:07:00.46

:Jp9iFqVj

>>421

だよな。テレタイプじゃないんだから10か13をLE(Line End)にすればいいんだ

425

： [sage] 2018/06/26(火) 22:23:33.42

:PAZ2qH9Y

一方でEBCDICはCRやLFとは別にNLを定義した。

426

： [] 2018/06/27(水) 00:01:18.11

:4lF2I/sY

ｺﾚが正解

ttps://i.stack.imgur.com/e4xm6.jpg
つまり
carriage returnは行頭に復帰
line feedは行送り

CRだけなら何度も同じ行が上書きされる（行送りされない）
LFだけなら例えば3行だとこうなる
XXXXXXXX
　　　　　　　XXXXXXXX
　　　　　　　　　　　　　　XXXXXXXX

427

： [sage] 2018/06/27(水) 00:23:59.29

:Xb4utxw7

⮠じゃなくて⮦

428

： [sage] 2018/06/27(水) 00:37:35.67

:BTQKl7xc

>>426

何自慢げに周回遅れなこと書いてんだ？
それ前提の議論だぞ？

>>417

見ろや

429

： [] 2018/06/27(水) 00:53:00.34

:4lF2I/sY

そんなこといいだしたら
ﾃﾞﾘﾐﾀなんかなんでもいいことになる
ただの文字ｺｰﾄﾞの羅列だからな
CRである必要もないしLFである必要もない

そもそもｷﾐﾗはｱﾎなこといってるﾜｹ
項目のﾃﾞﾘﾐﾀにｶﾝﾏつかったり水平ﾀﾌﾞ使ったりする
行のﾃﾞﾘﾐﾀだってなんでもいい

ﾊﾞｶはﾎﾝﾄ困るわぁ

430

： [sage] 2018/06/27(水) 02:30:43.48

:ulOW8GiO

>>429

だから決めだけの問題だから何でもいい。
ASCIIという文字コードの規約の問題。

実際にEBCDICは CR でも LF でもない制御コードを別途改行コードとして用意した。
ASCII については規格の策定時から LF を押す国際派(ISO)と CR+LF を押す国内派(ANS)が対立していて一意に決まってない。

431

： [] 2018/06/27(水) 09:37:29.05

:5XsMHgY7

もともとテレタイプ前提の文字コードだからなあ

432

： [] 2018/06/27(水) 15:41:13.36

:2dfKv2YD

文字の話しろ

433

： [sage] 2018/06/27(水) 15:48:44.41

:EKUkk/oX

いや文字コードの話するスレだろ

434

： [sage] 2018/06/27(水) 18:10:34.52

:rSBeNI25

CR/LFは文字じゃないのか……（驚愕）

435

： [sage] 2018/06/27(水) 21:08:46.77

:ulOW8GiO

制御コードであって文字ではないな。
少なくともASCIIとUnicodeでは。

436

： [sage] 2018/06/27(水) 22:13:49.89

:5OUSIXAr

制御文字のコードです

437

： [sage] 2018/06/27(水) 22:58:53.48

:+kEwaWuV

>>420

その後に書いてある「I'm told that the ASCII committee changed the name of character 0x0A to "newline" around 1996, so the confusion level has been raised even higher.」
ってどういうことなんだろう？
ASCII委員会が1996年頃に0x0Aの名前をnewlineに変更して混乱が深まった？
ASCIIって1986年が最終改訂じゃないの？

438

： [sage] 2018/06/28(木) 09:21:41.88

:iSaREpik

コンピュータの出力装置がゴルフボールの電動タイプライターだった時代、
例えば「アンダーライン入りの文字」を打つ時は、普通に文字を打って、
「ラインフィードの無いキャリッジリターン」をやって、
アンダーラインだけを打っていたのだと思う。

すると、キャリッジリターンには、ラインフィードが付く場合と付かない
場合があり、両者は明確に区別できなければならないはず。
ASCIIコードが制定された時代から考えると、改行コードが「ＣＲ／ＬＦ」
になったのは、そうゆう趣旨かな？と思う。

439

： [] 2018/06/28(木) 09:47:22.60

:/fqEtI/z

>>438

キャリッジリターンは行頭に戻るだぞ
キャリッジリターンだと行頭の文字しかアンダーラインを打てないのでは？

バックスペースで1文字分戻ってアンダーラインを打ったり
文字を二度打ちして太字にしたりしてたと聞いたぞ

440

： [] 2018/06/28(木) 11:06:58.11

:5Es+lqIV

BOMとかUTF-8Nってなんですか？

441

： [sage] 2018/06/28(木) 12:37:34.87

:iSaREpik

>>439

なるほど。ありがとう。

442

： [sage] 2018/06/28(木) 12:46:09.81

:4/XCwkvc

unicodeになって重ね打ち的な概念復活してきてね？

443

： [sage] 2018/06/28(木) 15:12:27.72

:LwHbkD+y

>>439

重ね打ちをしたくないところはスペースを使えばいい
>コンピュータの出力装置がゴルフボールの電動タイプライターだった時代
スペースは何も印字せずに印字位置を一文字分進めるのであって
その位置の文字を空白で置き換えたり
その位置に空白を挿入するのではなかったのだから

昔読んだ本に、重ね打ちのためにバックスペースを使っている文書を
バックスペースを使えないプリンターでも重ね打ちできるように
変換するプログラムが載っていた
詳細は忘れたけど、CRとスペースを使うのだったと思う

>>438

それだと行頭に戻る機能だけをCRとして用意する理由にはなっても
行頭に戻る機能をLFに持たせない理由にはならないのではないか?

行頭に戻さずに行だけ変えることに当時は意味があったのかも知れないけど思いつかない

444

： [] 2018/06/28(木) 16:20:32.60

:FdbC2U6h

escシーケンスでも改行せずに行頭に戻したり出来たからな

445

： [] 2018/06/28(木) 16:21:52.50

:FdbC2U6h

>当時は意味があったのかも知れないけど

紙の排出に使われてたぞ

446

： [sage] 2018/06/28(木) 18:55:39.46

:wMlREDKw

>>443

コレクションタイプに全字画印字のキーってなかったっけ？
まさに"空白"を打てるやつ。

447

： [] 2018/06/28(木) 23:48:15.68

:d1dmwFto

UTF-8Nというのは
だれかがﾃｷﾄｰにつけたUnicodeのｴﾝｺｰﾄﾞの名前
先に結論をいうとUTF-8NはBOMついてないUTF-8ということらしいからな
さらいえばUTF-8にBOMつける意味はほとんどない

とりあえず概要だけ書いといてやろう

BOMというのは、符号単位のｵｸﾃｯﾄの並びが
ﾘﾄﾙｴﾃﾞｨｱﾝかﾋﾞｯｸﾞｴﾝﾃﾞｨｱﾝか識別するためにﾌｧｲﾙの先頭にﾏｰｸされる
ちなみにそれぞれのｴﾝｺｰﾄﾞの符号単位はこんな感じなる

　UTF-8：1つのｵｸﾃｯﾄ
　UTF-16：2つのｵｸﾃｯﾄ
　UTF-32：4つのｵｸﾃｯﾄ

つまり、UTF-8ではそんなﾏｰｸつけても意味がない
ｵｸﾃｯﾄが1つしかないからな、並びなんか関係ない
2つ以上の場合、ｵｸﾃｯﾄの順序がﾘﾄﾙｴﾃﾞｨｱﾝかﾋﾞｯｸﾞｴﾝﾃﾞｨｱﾝかで
数値の表現のされかたが変わる

CISC系のﾁｯﾌﾟだと数値の表現はﾘﾄﾙｴﾝﾃﾞｨｱﾝが多い
RISC系のﾁｯﾌﾟだと数値の表現はﾋﾞｯｸﾞｴﾝﾃﾞｨｱﾝが多い

つまり、CISC系のﾁｯﾌﾟでﾘﾄﾙｴﾃﾞｨｱﾝで保存されたﾌｧｲﾙなら
ｴﾝﾃﾞｨｱﾝを気にせずにﾌｧｲﾙに保存された数値をそのまま読むことができる
しかしﾋﾞｯｸﾞｴﾝﾃﾞｨｱﾝなら一旦ｵｸﾃｯﾄの並びを逆転させてから
数値を読みとる必要がある
RISC系のﾁｯﾌﾟならその逆になる

分かった？

448

： [sage] 2018/06/29(金) 03:04:36.82

:8Q0GtZXS

わかんない。
なんで他のシステムで読む可能性のあるファイルなのに
フォーマットを決めないの？

449

： [sage] 2018/06/29(金) 09:04:53.35

:iuHQPsKC

>>443

> 行頭に戻さずに行だけ変えることに当時は意味があったのかも知れないけど思いつかない
例えば、ゴルフボールで次のようにタイプすることを考えてみる。（□はスペース）

□□□□□□□ＡＡ
□□□□□□□ＡＡ

□□□□□□□ＡＡ「ＣＲの無いＬＦ」「ＢＳ」「ＢＳ」ＡＡ
と打つと、行頭に戻すよりも速く打てると思うが。

450

： [sage] 2018/06/29(金) 09:11:34.75

:pXG1OaDl

CISC RISC って今は無意味だしエンディアンとは関係ない
関係あると思うのは知ってるCPUが少ないだけかと

あと上で重ね打ちが昔の話みたいに言ってるけど
man使ったことないの？
端末によるけどたいていアンダーラインがつくよ

451

： [sage] 2018/06/29(金) 09:17:15.33

:pXG1OaDl

>>443

CRとLFに分かれてるのは当時のハードウエアがそういう仕様だったから
画面制御のコンテキストで意味を求めてもしょうがない

452

： [sage] 2018/06/29(金) 11:08:54.85

:95WXFXv0

BOMの有無でCSVをexcelに読ませる際に文字化けするんだよね

453

： [sage] 2018/06/29(金) 11:50:23.53

:Uc21CWyX

そういう仕様だったから、ってのは何の考察にもなってない。
人類が争いをやめないのはそういう仕様になってるから。

454

： [sage] 2018/06/29(金) 15:14:45.43

:C6H9lGIq

>>450

>(manでは)端末によるけどたいていアンダーラインがつくよ

manでアンダーラインがつかないと言っている人はいないし、昔は
>バックスペースで1文字分戻ってアンダーラインを打ったり
>文字を二度打ちして太字にしたりしてた
というのとは別の話だろ

455

： [sage] 2018/06/29(金) 15:35:26.60

:C6H9lGIq

>>453

そうなっていたのはなぜかという話をしているのに
「そうなっていたから」と返されてもな…

456

： [sage] 2018/06/29(金) 16:16:27.86

:kXqQNYVA

>>449

速く打てるだろうけど、そういうことをやりたい状況ってどれぐらいあるんだろ
行頭へ戻すほうがずっと多いだろうし、その場合にCR LFと打つことに
なってもしかたないと思えるほど

>>449

の状況は多かったのだろうか

キーを一つ押せばCR LFと出るように設定できれば手間はかからずにすむけど
設定できたとしても改行に2文字使うのは変わらない

昔は記録用に紙テープを使っていたようで、行毎に1文字多く使うと
その分、紙テープの消費は多くなる
そうなってもしかたないと思えるほど

>>449

の状況は多かったのだろうか

457

： [sage] 2018/06/29(金) 22:19:47.60

:jsqIPRMd

ちょっと関係ないがGoogle翻訳では改行は%0Aだね。
HTTP関連の改行コードはCRLFが多いと思うんだけど，珍しい。

458

： [sage] 2018/06/29(金) 22:36:32.85

:8Q0GtZXS

そこはhttp関係ないじゃん

459

： [] 2018/06/29(金) 23:08:44.45

:sSTEuPuw

むしろﾌｫｰﾏｯﾄがきまってる
ﾘﾄﾙｴﾝﾃﾞｨｱﾝの形式でもいいし
ﾋﾞｯｸﾞｴﾝﾃﾞｨｱﾝの形式でもいいというﾌｫｰﾏｯﾄだからな

構成ｼｽﾃﾑがﾘﾄﾙｴﾝﾃﾞｨｱﾝの計算機が多い場合、ﾘﾄﾙｴﾝﾃﾞｨｱﾝで扱う方が有利
当然、構成ｼｽﾃﾑがﾋﾞｯｸﾞｴﾝﾃﾞｨｱﾝの計算機が多い場合、ﾋﾞｯｸﾞｴﾝﾃﾞｨｱﾝで扱う方が有利になる
後処理の計算機のﾘｿｰｽ消費量を減らすために先にいちいち毎回ｴﾝﾃﾞｨｱﾝ変換するのもﾑﾀﾞだしな

ちなみにﾈｯﾄﾜｰｸのﾌﾟﾛﾄｺﾙの標準では歴史的な事情があって
ほぼ暗黙でﾋﾞｯｸﾞｴﾝﾃﾞｨｱﾝになってる
ﾄﾞｷｭﾒﾝﾄにｴﾝﾃﾞｨｱﾝが記載されてなければ
ﾋﾞｯｸﾞｴﾝﾃﾞｨｱﾝとみなしてほぼ問題ない

460

： [] 2018/06/29(金) 23:10:02.53

:sSTEuPuw

ちなみにｷﾐﾗみたいな貧乏人が使ってるPCは
ほとんどﾘﾄﾙｴﾝﾃﾞｨｱﾝになる

461

： [sage] 2018/06/30(土) 00:16:14.33

:I+9paw5R

やっぱり今時半角カタカナ使う人にはアレな人が多いのか

462

： [sage] 2018/06/30(土) 01:04:57.77

:2NGdD93t

>>459

どっちでもいい＝決まってないだろ
頭悪いと半角カタカナが大好きになるのはなんでだぜ？

463

： [sage] 2018/06/30(土) 03:46:45.67

:O2H7A6pY

>>460

じゃあお前何使ってんだ？
貧乏人なのでスマフォ叩きながら質問。

464

： [sage] 2018/06/30(土) 04:38:43.11

:8S9cJyih

やっぱりユニコードが諸悪の根源
あれが入って来てからコンピュータが扱いづらくなった
日本はSJISに統一しよう

465

： [sage] 2018/06/30(土) 06:04:05.89

:tYfB6W3t

Unicode程度でコンピューターを扱いずらくなる脳味噌って……同情するわ。

466

： [sage] 2018/06/30(土) 13:06:02.67

:QAvD/WKt

エンディアン関係ないUTF-8が一番良いな

467

： [sage] 2018/06/30(土) 13:32:27.92

:cCXC0XvW

UTF-8 はバイト列を見て文字がわかりにくいのが難点

468

： [sage] 2018/06/30(土) 13:49:23.03

:O2H7A6pY

>>467

なんで？

469

： [sage] 2018/06/30(土) 14:05:18.42

:BPi0VHAg

>>464

最初から 32 ビットにしなかったのが問題でしたね

470

： [sage] 2018/06/30(土) 18:58:11.39

:cCXC0XvW

>>468

うーん、いやあ、あらためて考えると単に分かりづらいと思い込んでる
だけだったかも。JISX0208 の文字って３バイトになるでしょ。
あの 3バイトずつになるのがどうも慣れないだけだった。467 は撤回するよ

471

： [] 2018/06/30(土) 20:27:41.69

:ozTCpxdq

BOMでｴﾝﾃﾞｨｱﾝが規定できるからな
そのようにﾌｫｰﾏｯﾄできまってる
数値の読みとりかたも一意に定まる

どっちでもいいというﾜｹではない
ﾊﾞｶはﾎﾝﾄ困るわぁ

つまり
ﾘﾄﾙｴﾝﾃﾞｨｱﾝで2つ以上のｵｸﾃｯﾄがあるのに
先頭にBOM入れないﾔﾂはｺﾞﾐｸｽﾞといえる

Javaのﾊﾞｲﾄｺｰﾄﾞに CAFE BABE が入ってないぐらいお話にならない

ﾋﾞｯｸﾞｴﾝﾃﾞｨｱﾝならBOMなくてもｵﾚはよいとしようと考える

472

： [sage] 2018/06/30(土) 22:43:16.16

:2NGdD93t

半角カタカナは目に入ってこないなｗ

473

： [sage] 2018/06/30(土) 23:05:58.78

:8S9cJyih

恐ろしいのは、PCを使う一般人はユニコードとかBOMとか全く知らないこと
IT技術とIT利用者のレベルのギャップがいつかデカい事件を起こすだろう
PC社会は薄氷の上を歩くような危うさの中に成り立っている

474

： [sage] 2018/06/30(土) 23:20:50.17

:0vzJToCT

未だに半角とか全角を使用者に意識させるのが残念でならない
カタカナなんて文字としては一種類なんだから機械的に変換してしまうのが当たり前になって良さそうなのに

475

： [] 2018/07/01(日) 15:37:44.32

:ep584YMH

2ちゃんがSJISオンリーってのがそもそもはよなおせ

476

： [sage] 2018/07/01(日) 15:50:52.13

:3SrV2o5x

sjisオンリー❓🤔

477

： [sage] 2018/07/01(日) 16:00:26.27

:omYv90Gk

>>470

中国のGB 18030みたく1バイト/2バイト(EUC-CN)の上に4バイトを重ねる方法もあるけど
それならUTF-8の方がすっきりしてていいわな

478

： [sage] 2018/07/01(日) 18:18:14.73

:EnuoS7Gy

Unicodeのクソなところは、既存のコード体系を無視してるところだよな。
まさに欧米人のやり口そのもの。

479

： [sage] 2018/07/02(月) 03:00:52.60

:EL6wSxah

たとえば？

480

： [sage] 2018/07/02(月) 08:27:03.72

:FZsTYqY7

Shift-JISが発音区別符号のついたラテン文字などをサポートしていればよかったのに。

481

： [sage] 2018/07/03(火) 09:01:30.75

:IDUMbXdY

>>478

jis やsjisとかと全く関係なく決められている事を言ってるのだと思うが、
それは中国の横やりだよ。
欧米人からすると、CJKのコードなんて、どうでもいいわけで。

482

： [sage] 2018/07/03(火) 14:32:34.20

:R6pmKHtn

>>464

文字列末尾からの逆方向検索を実装してごらんなさい。
もれなく SJIS に対する殺意が目覚めますよ。

483

： [sage] 2018/07/03(火) 14:34:40.85

:gQF2QJmD

SJISは廃用で

484

： [sage] 2018/07/03(火) 14:55:13.29

:pQbF/VH/

はいよっ！

485

： [sage] 2018/07/04(水) 03:13:37.83

:FxllvN6o

>>482

ビット立てながら先頭から見ればいいだけじゃん？

486

： [sage] 2018/07/04(水) 17:14:03.55

:LFQ4ypq9

うーん

487

： [] 2018/07/04(水) 21:57:50.06

:gFgZc5FG

KZD

488

： [] 2018/07/04(水) 23:49:15.94

:s7W39adb

昔、Unicodeもない時代に全文検索ｴﾝｼﾞﾝ作ったことがあるが
ｲﾝﾃﾞｯｸｽ作るのにもﾏｯﾁﾝｸﾞ用に符号圧縮したﾃﾞｰﾀ作るのにも
設計がめんどいわ処理時間がかかるわだろうから
Shift_JISﾃﾞｰﾀから16bitのﾃﾞｰﾀに一旦変換してからそういったﾃﾞｰﾀを作成するようにしてたわ

要件が検索漏れｾﾞﾛ、ﾉｲｽﾞｾﾞﾛ、なおかつﾒﾃﾞｨｱは超ﾄﾛｲCD-ROMという
ありえない滅茶苦茶な内容だったからな

ｲﾝﾃﾞｸｻは大富豪な設計でないとやってられなかった
ｲﾝﾃﾞｯｸｽ作成にﾘｱﾙﾀｲﾑ性が要求されなかったからまだ救いがあったともいえる

その全文検索ｴﾝｼﾞﾝはｲﾝﾃﾞｯｸｽを大きくすればするほどｲﾝﾃﾞｯｸｽが大きくなるかわりに
最悪のｹｰｽの速度が速くなるという仕様にした（最低限必要な性能の要求水準に応えるため）
ｲﾝﾃﾞｯｸｽを大きくするということはｲﾝﾃﾞｯｸｽを作るのに当然時間がかかるということになる
いまはそれもとてつもなくﾃﾞｰﾀが増えてDVDになってる
ｲﾝﾃﾞｯｸｽもものすごい大きくなってる

で、その最悪のｹｰｽというのは、
符号圧縮されたﾃﾞｰﾀをﾏｯﾁﾝｸﾞする回数が増えることを意味する

ﾏｯﾁﾝｸﾞの条件はﾏｯﾁﾝｸﾞｷｰﾜｰﾄﾞから生成するｲﾝﾃﾞｯｸｽに含まれる符号圧縮された符号の組み合わせになる
そのﾏｯﾁﾝｸﾞｱﾙｺﾞﾘｽﾞﾑにBMHを使うことになる

489

： [] 2018/07/04(水) 23:50:33.59

:s7W39adb

で、このBMHというのは文字列ﾏｯﾁﾝｸﾞで非常に有効なｱﾙｺﾞﾘｽﾞﾑといえる
しかしShift_JISでは使えない
ﾕﾆｺｰﾄﾞならそのまんま使える

順方向からの文字列ﾏｯﾁﾝｸﾞですらShift_JISでは
こういった高速なﾏｯﾁﾝｸﾞｱﾙｺﾞﾘｽﾞﾑが使えない

いかにShift_JISがｳﾝｺかよくわかる典型的な例といっていい

490

： [] 2018/07/05(木) 01:32:31.02

:Iw1yLrzA

>>488

> ｲﾝﾃﾞｯｸｽを大きくすればするほどｲﾝﾃﾞｯｸｽが大きくなる

髪を長くすればするほどロングになる

491

： [] 2018/07/05(木) 01:51:36.04

:T0L/NWDK

ただし抜けやすくなる

492

： [sage] 2018/07/05(木) 02:11:26.21

:8UhFPcQc

半角カタカナを多用されるとCOBOLで作ったんじゃないかと思っちゃうね

493

： [sage] 2018/07/05(木) 02:30:50.16

:HIyPet1B

大発見じゃん

494

： [] 2018/07/05(木) 18:37:34.34

:0T2GdzcY

半角カナもそうだけど、全角英数も大概だよなぁ
経緯的なもんだろうけど、
未だに『住所はすべて全角で』みたいなWebフォーム有ったりするし

495

： [sage] 2018/07/05(木) 19:38:22.34

:CqUNBSEq

Unicodeって日本を優遇しすぎてない？そう思うのは日本人の奢りなのかな。
例えば上で挙げられてる絵文字や全角英数、半角片仮名だって日本由来だし、
「CJK互換文字」と謳いつつ、キロメートルを一文字幅に短縮したやつとかも全部日本のJISコードとの互換性を保つために導入されてる訳じゃん。
そういうのってどうなのかなぁ。
自分は嬉しい（過去の、Shift-JISでエンコードされた文書が情報の欠損なく読めるから）んだけどね、もちろん。

496

： [sage] 2018/07/05(木) 20:37:53.33

:cHUpj8OH

>>495

線文字Aとか楔形文字拡張とか見ても同じこと言えるか？

497

： [sage] 2018/07/05(木) 21:16:32.44

:CqUNBSEq

>>496

でもあれは互換性もクソもないじゃん

498

： [sage] 2018/07/05(木) 22:49:22.73

:cHUpj8OH

誰にも読めない、使えない、未解読の古代文字とか登録してるくらいだから、現代でも使用可能な文字なら余裕って話だ。

499

： [] 2018/07/05(木) 23:18:38.72

:0kDXGIdf

だめか
𒀑
𒄦
くさび

500

： [sage] 2018/07/06(金) 07:29:45.69

:3U2Ta28u

㍻（元号を一文字化したもの）とかあるからな
申請すれば何でも通るんじゃねーの

501

： [sage] 2018/07/06(金) 08:24:58.10

:QJllJwz8

申請する権利のある人ならな。
大手OSメーカー、国家規格代表、ごく一部の文字専門家。

502

： [sage] 2018/07/06(金) 08:47:24.31

:IGjSb2yt

㍼、㍻などは、昔の（日本の）文字コードとの互換性を取るために
残しているだけ。だから、次の元号の合わせ文字は通らない。

503

： [] 2018/07/06(金) 10:05:30.92

:odzQpd8G

文部の沙汰も金私大

504

： [sage] 2018/07/06(金) 19:02:02.70

:3U2Ta28u

>>502

もうコードの場所を確保してあるってMSの元号対応ブログで言ってたよ

505

： [sage] 2018/07/06(金) 22:30:52.61

:p79Hvr/2

先月のWG2ロンドン会議で32ffが予約された

>>501

申請者に権利なんてないよ。英文ができてフォントが作れるなら誰でも提案できる

506

： [] 2018/07/07(土) 01:28:54.42

:kLxolQc6

空いてるとこにﾃｷﾄｰにいれてるだけやん
文字ｺｰﾄﾞが連続してないし
ひどいﾏｯﾋﾟﾝｸﾞされてるわ

507

： [sage] 2018/07/07(土) 10:47:15.09

:OQyJYPpl

元号は、これからもどんどん増えてゆくんだから、Unicodeに
「日本元号面」を作って、そこに入れるようにしてほしい。

508

： [] 2018/07/07(土) 11:50:18.74

:kLxolQc6

ちなみに先に書いた全文検索ｴﾝｼﾞﾝでは
ｱｲｳｴｵもｱｲｳｴｵも
ｶﾞｷﾞｸﾞｹﾞｺﾞもガギグゲゴも
１２３４５も12345も
ａｂｃｄｅもabcdeも
同じ文字ｺｰﾄﾞとして扱ってる
つまりどっちでｷｰﾜｰﾄﾞ書いても当たる
見た目（つまりｸﾞﾘﾌ）が違うだけで同じだからな

しかし明治大正昭和平成を㍾㍽㍼㍻までは
やってない

すでにいろんなもんでその全文検索ｴﾝｼﾞﾝは使われてるが
ｺﾚで文句がきたことはない

つまりだれも気にしてない

509

： [sage] 2018/07/07(土) 13:23:15.59

:WVErtcKw

ｶﾟｷﾟｸﾟｹﾟｺﾟはどうなるんだ

510

： [] 2018/07/07(土) 13:49:40.16

:kLxolQc6

こんな感じの内容からｲﾝﾃﾞｯｸｽやﾏｯﾁﾝｸﾞ用のﾃﾞｰﾀが作成される

　ｶﾞｷﾞｸﾞｹﾞｺﾞ　ガギグゲゴ　⇒　カ゛キ゛ク゛ケ゛コ゛
　ｶﾟｷﾟｸﾟｹﾟｺﾟ　⇒　カ゜キ゜ク゜ケ゜コ゜

つまりｲﾝﾃﾞｯｸｽやﾏｯﾁﾝｸﾞ用のﾃﾞｰﾀを作る前に前処理で一気に痴漢することになる
で、ｷｰﾜｰﾄﾞをｶﾞｷﾞｸﾞｹﾞｺﾞやガギギゲゴやカ゛キ゛ク゛ケ゛コ゛にすると
カ゛キ゛ク゛ケ゛コ゛で検索することになる

つまりこの全文検索ｴﾝｼﾞﾝは濁音も半濁音も検索できる超優れものといえるのだ

511

： [] 2018/07/07(土) 14:06:53.21

:IMiijYtR

痴漢アカン

512

： [sage] 2018/07/07(土) 14:25:13.00

:WVErtcKw

俺はそういうのを考えるのが面倒だからUNICODE正規化だけしてる
おかげで平成と㍻もちゃんと検索でヒットする

513

： [] 2018/07/07(土) 15:16:01.20

:kLxolQc6

ちなみに客ごとに置換辞書を作ってる
客ごとに要望が違うからな
客によってはいろんな要望をいってくる客もいる

その要望に応えるのも仕事だからな
で、そのなかに㍾㍽㍼㍻を置換した例はない

全角にﾏｯﾋﾟﾝｸﾞされてるasciiや半角ｶﾅの部分は
ｺﾚについてほぼ間違いなくみな同じ結論になる

それ以外で異なる特殊な部分は結構ある
文字ｺｰﾄﾞでｼﾉﾆﾑの部分もあれば、それ以外でｼﾉﾆﾑにしたい部分もあったりする
それは客の業務に依存する部分になるからな

514

： [] 2018/07/07(土) 15:17:11.21

:kLxolQc6

考えるのはｷﾐじゃないﾜｹ
ｷﾐはただのﾄﾞｶﾀなﾜｹ

わかる？

客と良好な関係を保つには
できるだけ、それは仕様ですは避けないといけない
そしてそれを低いｺｽﾄで実現できないといけない

なにをしたいのかはっきりといってる部分については
こっちから客の業務についてどうこういう必要も理由もないし
こんなしょうもないことを実現するためにめっちゃｶﾈかかりますよとかいえるﾜｹもない

そういうことだ

515

： [sage] 2018/07/07(土) 15:56:51.92

:hSg2x2AH

>>507

次の次の次に予定されてる人が、女性に興味が持てない人だったり、
ジジイババアに囲まれて育つからババア専に育ったりするかもしれないぞ？

516

： [sage] 2018/07/07(土) 17:04:10.09

:i11AJyJz

絵文字の無茶な合成が有りなんだから
平と成をzwjでくっつけたら㍻になるとかでいいのに

517

： [sage] 2018/07/07(土) 20:17:18.16

:Ty8z3s6n

魚 + ZWJ + 里 = 鯉
とか収拾がつかなくなる

518

： [sage] 2018/07/07(土) 20:47:01.42

:hSg2x2AH

光＋宙＝ピカチュウとか？

519

： [sage] 2018/07/07(土) 21:11:51.93

:URcWOMtI

次の元号組み文字はCP932やJISX0213には入るのかな？

520

： [sage] 2018/07/07(土) 22:51:54.27

:AwQTnpwn

月+光=胱とか

実際に胱を人名に使えるようにしてほしいという要望があるそうだ

521

： [sage] 2018/07/08(日) 00:07:58.74

:ib3y3idC

自力でマッピングするnkfの遅さ。文化遺産だから保守され続けるのだろうけど。

522

： [sage] 2018/07/08(日) 00:46:47.26

:5rg7g6N2

ていうか確かそういう（漢字を結合する）のにピッタシな文字が用意されてた筈。
漢字表示文字だとかいう名称だったけど、検索してもそれらしい記事が引っ掛からんので
多分この名称は違う。

523

： [sage] 2018/07/08(日) 00:54:45.54

:AL4TGRyQ

>>516

日本NBがBMPに専用のコードポイントを確保することにこだわった
BMPしか扱えず合成何それ？みたいなシステムが国内にいっぱい残ってるんだと

524

： [sage] 2018/07/08(日) 21:30:52.45

:Dz8m9jRj

>>520

でもその月は本来は肉なのでわ

525

： [sage] 2018/07/08(日) 21:58:14.68

:VztP7D+N

>>524

キラキラネームつけるレベルの頭の人だよ？
そんな難しいことわかんないよ。

526

： [sage] 2018/07/08(日) 22:00:52.97

:fj164SAR

>>520

要望する人はそんなの気にしないんでしょ

527

： [sage] 2018/07/08(日) 22:01:58.98

:fj164SAR

>>526

アンカ間違えた

>>524

要望する人はそんなの気にしないんでしょ

528

： [sage] 2018/07/08(日) 22:15:50.43

:0enAxBm5

合字と、ひとつの漢字が偏旁に分かれているのとはまた別だろ

529

： [sage] 2018/07/08(日) 22:25:52.71

:fj164SAR

胱を人名に使えるようにしてほしいと要望している人たちは
胱を月と光の合字のようなものと考えてるんだろうなって話だからな

530

： [sage] 2018/07/08(日) 22:58:07.18

:CFOYAJun

しかし肉と光でなんで膀胱なんだろうな
光は頭の上に火を掲げる神聖な存在を表していたらしいけど
特殊な性癖の人が尿を聖水というのと関係があるのかしら

531

： [sage] 2018/07/08(日) 23:05:05.80

:FVlDE0YC

三光作戦の光

532

： [sage] 2018/07/09(月) 02:42:13.13

:f4diYHew

形声文字という概念も知らんのか…

533

： [sage] 2018/07/09(月) 03:26:55.92

:kfYRLcv/

>>530

ttp://jump.5ch.net/?https://blog.goo.ne.jp/ishiseiji/e/0177ce8e642676c6cffe2e87b0fc4766
胱　コウ　　月部にく
解字　「月（からだ）＋光（ひろがる）」　の会意形声。身体の中で尿をためておく袋状のもの。尿がたまってくると袋がひろがる。
意味　「膀胱ボウコウ」（ゆばりぶくろ）に使われる字。旁ボウも光コウも、ひろがる意。これに肉月をつけて身体のなかで尿をためて拡がる器官を表した。

534

： [sage] 2018/07/09(月) 04:35:05.56

:4WT+OSln

肺やちんこも広がるのですが？

535

： [sage] 2018/07/11(水) 19:19:37.68

:gmqqN491

昔の知識じゃそんなこと分からんやろ
足りない頭ひねって考えろやボケナス

536

： [sage] 2018/07/11(水) 19:27:48.34

:A6luu057

昔のちんこは拡がらなかったのですか！？

537

： [sage] 2018/07/11(水) 22:21:59.51

:LQKpeeG0

大陸の人のちんこはやらかい印象がある

538

： [sage] 2018/07/12(木) 02:46:54.78

:iPCGhCdE

ギリシャでは包茎が持て囃されたしね

539

： [] 2018/07/12(木) 09:58:56.70

:x8Svnlzm

豚の膀胱が蹴鞠の材料だっけ

540

： [sage] 2018/07/18(水) 22:57:34.06

:BB+kHIx9

新元号がUnicode12にギリ間に合わないから12.1出そうかって話が出てきたか

541

： [sage] 2018/07/19(木) 01:23:42.91

:yQzT/5Dr

この前危うく間に合いそうになってましたけどね

542

： [sage] 2018/07/19(木) 06:57:15.79

:0leqnnH4

えぇそんな一国の事情でUnicode様が右往左往されるのですか！？

543

： [sage] 2018/07/22(日) 16:13:27.34

:WQtj2cDH

トルコリラの「も」みたいなやつ追加した時もほぼそれだけじゃなかったっけ？

544

： [sage] 2018/07/25(水) 14:58:24.45

:oBls1I2Q

Adobe-Japan1-6 Is Expecting!
外部リンク

ttp://jump.5ch.net/?https://blogs.adobe.com/CCJKType/2018/07/adobe-japan1-6-is-expecting.html

えーAdobe-Japan1-7って新元号を追加するだけで終わりなのー？

545

： [sage] 2018/07/25(水) 17:15:18.78

:41CwtA3+

う、うん…(ｴ・ω・｀)

546

： [sage] 2018/07/25(水) 18:24:58.87

:oBls1I2Q

JIS X 0212 補助漢字の残りはいつになったら……(ｴ・ω・｀)

547

： [] 2018/07/25(水) 19:23:56.34

:rm2bmQuM

UTF-7の仕組みをはじめてしったが面倒くさいエンコードだった。
UTF-16と、BASE64に依存しててこれがなければ成立しないのかよ。
単体で存在するUTF-8とかと一緒かとおもってた。

548

： [sage] 2018/07/25(水) 22:28:09.49

:NKwfwGfT

元号の組文字に先行リリースするほどの価値があるかなぁ
何にしろ早くAJ18出してよ

549

： [sage] 2018/07/25(水) 22:55:41.73

:QC64Azkr

元号の組文字使ってるとこあんの？

550

： [sage] 2018/07/26(木) 00:34:28.84

:a2xMjw11

来年の5月までまだ9ヶ月強あるのに今の時点でもうAJ1-7は2文字だけと決めてしまうなんて
候補の選定ってそんなに手間のかかるもんなのかねぇ

551

： [] 2018/07/26(木) 20:55:22.84

:vMAtbXfy

どの言語圏であれ、国家が絡めば、Unicode界隈ではおおごとだよ。日本の元号だってまさにそう。
あの絵文字どうしますかね、とかそういうレベルじゃないから。

552

： [sage] 2018/07/27(金) 01:59:49.37

:mPyMQHHw

元号も絵文字にしようよもう
覚えるの大変だよ

553

： [] 2018/07/27(金) 02:29:56.02

:27BaLAkY

そもそも漢字や象形文字は、一種の絵文字だけどね。

554

： [sage] 2018/07/27(金) 02:40:46.86

:1Fj2fl7C

そもそも論はどうでもいい

555

： [sage] 2018/07/27(金) 03:15:50.87

:Wnb3i599

AJ16が出て結構経つとはいえこの間JISの改訂があったわけでもないんで
意外とAJ18も数十～数百文字程度の小規模アップデートで終わるかも

556

： [sage] 2018/07/27(金) 04:12:40.69

:L9NPxvRK

元号が絵文字になるとVSによって色黒な昭和とか女性的な明治とかが生まれるのか

557

： [sage] 2018/07/27(金) 12:33:29.72

:iHbYMqNW

元号なんて漢字2文字並べて書けばいいからそんな急ぐ必要無いだろ。
組み文字はUnicode13以降でもいいだろ。

558

： [sage] 2018/07/27(金) 17:48:33.71

:27BaLAkY

大国であれ小国であれ、一国家の行政が絡んでいるという時点で、急ぐ必要があるんだよ。
なにしろ影響を受ける人の桁数が違う。

559

： [sage] 2018/07/27(金) 19:18:57.24

:OorWiyDH

元号組文字なんか使ってる奴いるの？

560

： [sage] 2018/07/27(金) 19:32:41.17

:VZghEMWS

役所やぞ

561

： [sage] 2018/07/27(金) 19:45:53.97

:ZZpxf/7G

文字の名前もグリフも未定だけどとりあえずコードポイントだけ押さえましたなんて
Unicode史に残る珍事だと思うわ

562

： [sage] 2018/07/27(金) 19:56:54.08

:Sut8d6Pq

影響を受けやすいような手段を一国家の行政が採用している無能さを棚に上げてるから駄目なんだ

563

： [sage] 2018/07/27(金) 20:31:49.16

:27BaLAkY

「ワシは知らん」とUnicodeが無視した場合、本来は1ベンダーにすぎないマイクロソフトがそのしわ寄せに対応することになり、
結局、マイクロソフトの独自拡張をUnicodeがしぶしぶ追認することになるので二度手間なんだよ。

564

： [sage] 2018/07/27(金) 22:03:28.66

:x//i6AWs

北朝鮮の将軍様専用ハングルとか数文字は国家規格に入ってるにも関わらず
未だにUnicodeに入れて貰えてないよな。

565

： [sage] 2018/07/27(金) 22:09:52.68

:N1oOfHi2

元首の交代に伴って変更される紀年法をまだ使ってる国なんて他にあんのかね

566

： [sage] 2018/07/27(金) 23:53:13.41

:G98hsmYh

まず無いだろうけど、もし新元号が現時点でUnicodeに無い漢字を使うものになったら
統合漢字のURO末端に緊急追加になるだろうな。

567

： [sage] 2018/07/28(土) 01:26:08.91

:YvWIBfUX

>>566

その前に国内のシステムがおかしくなるよ。
常用漢字から選んでくれないと。

568

： [] 2018/07/28(土) 14:53:59.34

:39ICzHjE

M明治
T対象
S昭和
H平成
A麻原

569

： [sage] 2018/07/28(土) 14:57:49.43

:gid9j1yM

ゆぁ～えーびぃ～すぃ～ん♪

570

： [sage] 2018/07/30(月) 00:49:54.80

:/AsJWau1

>>564

そういえばあれって三代目用の文字もあるのかな？

571

： [sage] 2018/07/31(火) 17:52:18.88

:A7NyuH1x

将軍様専用ハングル以外にUnicode未収録文字は縞模様の三角とか謎の記号がいくつかあったな。
北朝鮮で使われてるRed Star OSではUnicodeが使われてるけどこれらはPUAに割り当てられてる。
因みにWindowsの北朝鮮版は無い。

>>570

2012年頃の改訂で追加されたらしい。

572

： [sage] 2018/07/31(火) 23:58:28.90

:NbiBz0uu

新元号組み文字はJIS X0213には入れるのかな。
入れるとしたら㍻の1つ前の1面13区62点、シフトでJIS0x877D辺りか。

573

： [sage] 2018/08/02(木) 01:17:44.00

:OU+qDqBT

専用ハングルはなんで「金」とか「日」とか重複する文字を代ごとに別々に入れてるのか謎

574

： [sage] 2018/08/02(木) 01:31:21.78

:A1dOXp8b

>>573

謎か？

575

： [sage] 2018/08/02(木) 04:36:12.48

:0KRWeg2T

最近の文字コードやばない？

576

： [sage] 2018/08/02(木) 08:45:58.28

:XfZDNvg1

文字コードとしては謎だろ
担当は何をしているのか
指摘どころか質問した時点で解雇されるルールでもあるのかよってくらいに謎だわ

577

： [sage] 2018/08/03(金) 00:21:52.08

:SeT2nEoR

やっぱおじいちゃんの金とおとうさんの正をを孫に使ったりしたら怒られるのかな。
グリフを見ただけで誰用の金なのかを見比べるスキルが必要になるんだろうな。

578

： [sage] 2018/08/03(金) 20:44:28.67

:TC+4ZTQW

nkfコマンドってなにもオプション指定しないでも文字化け直してくれるんだなw
どうやってるのか知らなくて怖いが（普段はiconv(1)を使ってる）

579

： [] 2018/08/04(土) 01:43:06.83

:i5vBNvJr

美乳

580

： [] 2018/08/04(土) 02:59:33.13

:iDjKbl2c

>>579

今時EUC-jpが生きてるシステムってあるの？

581

： [sage] 2018/08/04(土) 04:56:17.77

:iUNKVgUH

文字コードの自動判別は、100% 正確じゃない

間違うこともある

582

： [] 2018/08/04(土) 09:23:39.15

:LcV/uUAN

bit 順に意味があるんだろうけど
"\xC8\xFE\xC6\xFD"
なんでこれで自動検出できるかの説明が欲しい

583

： [sage] 2018/08/04(土) 09:42:12.43

:eMjkhZRT

〠

ttp://jump.5ch.net/?http://www.shtml.jp/mojibake/binew.html

584

： [sage] 2018/08/04(土) 16:00:30.01

:qslvxdhp

UnicodeはUCS-4を基本形にして
UTF-8はUCS-4の圧縮版のような扱いでいいんじゃないか
UCS-4ならCode Chartsに書かれている値をそのまま使うから分かりやすいし
UTF-16は廃止してもいいと思う

585

： [sage] 2018/08/04(土) 22:01:13.64

:TFSU2vbY

わざわざ廃止とかデメリットしかない

586

： [sage] 2018/08/04(土) 22:35:16.02

:sXotmGKy

WindowsのAPIがUTF-16ベースなのに廃止とか無理でしょ

587

： [sage] 2018/08/04(土) 23:38:59.79

:Xh+3QD0k

pcre はutf8対応が不完全。無理もない話だけど。
文字コードのライブラリを作る人からすればutf8よりも、utf16やutf32の方が便利。

588

： [sage] 2018/08/04(土) 23:53:51.88

:9dBFGr/9

そのutf-8の問題は utf-16でもutf-32でも同じなのでは

589

： [sage] 2018/08/05(日) 03:05:25.66

:lHG7kQYc

seekがめんどくさいのがUTF-8の問題だと思うんだけど違うの？

590

： [sage] 2018/08/05(日) 03:36:24.64

:oEhLV38F

UTF-16はUTF-8とUTF-32のデメリットを兼ね備えていて、
メリットが無いような気がする。

591

： [sage] 2018/08/05(日) 04:33:54.11

:kXrZdLCy

このスレに来るような人が、どうしてutf8とutf16/32が同じと思うのか不思議。
自力で文字判定処理をやったことがないスクリプト言語プログラミング一辺倒の人？

592

： [sage] 2018/08/05(日) 08:22:11.27

:RknsX4qY

>>591

文字コードに習熟したプログラマしかここに来ちゃいけないのかい？
俺みたいにユニコードとUTFの違いすらよくわからない者が情報を求めて
ここに通うこともあるんだぜ

593

： [] 2018/08/05(日) 08:42:30.75

:kXrZdLCy

pythonなんて内部の文字コードutf16だよ。
使う側が意識せずに済んでるってのがむしろ凄いわけで。
utf16要らないとか言ってる人は、事業仕分けでドヤ顔する民主党議員だわ。

594

： [sage] 2018/08/05(日) 10:13:37.02

:lHG7kQYc

仕分けしたからモリカケだけで済んでるんじゃないの？

595

： [sage] 2018/08/05(日) 12:03:49.97

:LsZm/jJA

本当だよ
無駄な予算にかけようとするこういうバカは消えてほしい

596

： [sage] 2018/08/05(日) 14:46:05.09

:mhm3uufJ

UTF-16はいきなり廃止するのは無理でも
新規設計非推奨くらいにはしてほしいよ

597

： [sage] 2018/08/05(日) 14:49:57.92

:SfajzAT9

WinAPIでUTF-16使ってるから廃止は無理でしょ

598

： [sage] 2018/08/05(日) 15:00:37.79

:mhm3uufJ

UTF-16は世界中の文字を固定長で表せるようにすることが目標だったから
16bitではそれができないと分かった以上32bitに変えるべき

599

： [sage] 2018/08/05(日) 20:42:38.42

:kXrZdLCy

linux64bit版gccは、wchar_tやstd::wstringが既定でutf32だし、徐々に変わっていくでしょう。

600

： [sage] 2018/08/06(月) 11:54:02.02

:wAAey1Ev

win32->win64のタイミングで変えとけばよかったのに

601

： [sage] 2018/08/06(月) 12:31:26.13

:jTWGCXc0

もう一生UTF-16なのかな(ｴ；ω；｀)

602

： [] 2018/08/06(月) 15:04:26.69

:9QlJsUMm

>>600

ほんそれ
ついでにシステムロケールもUTF8はよ

603

： [sage] 2018/08/06(月) 19:56:04.82

:RHl3d08a

必要な時にUTF32を使えればいいだけなのでそんなに深刻がらなくても大丈夫でしょ。

604

： [sage] 2018/08/06(月) 20:28:33.56

:JHbMXthk

基本は8で臨時は32で答えが出ているよなあ
日本独自のJIS関係とかもう要らないし

605

： [sage] 2018/08/06(月) 21:09:19.10

:J3hEGnZ9

そういえば新元号合字ってJIS X 0213とかCP932とかの系統にも入るのかな？
元号合字使ってるとこはUnicodeじゃない古いとこが多そうだからここに入れないと意味半減な気がするけど

606

： [sage] 2018/08/06(月) 21:18:55.92

:RHl3d08a

印刷に使うワープロソフトはすべてunicode対応しているから大丈夫。

607

： [] 2018/08/07(火) 04:59:39.09

:OlmXtX1U

JIS改訂汁

608

： [sage] 2018/08/07(火) 17:57:38.63

:ym2n+lOO

日本語とか東アジア言語はバイト数の面では
UTF8よりUTF16の方が有利になるのだが。

609

： [] 2018/08/07(火) 18:02:30.52

:pTM8y/Ns

そうでもない

610

： [sage] 2018/08/07(火) 19:58:16.46

:4kVMfOQG

うむ
日本語などの2バイト圏でも8やで

611

： [sage] 2018/08/07(火) 21:15:40.62

:FooseUHS

お経とかならそうかも
でも普通の日本語の文書はUTF-8で１バイトになる字がわりと使われてるよね
改行もバカにならない

612

： [sage] 2018/08/07(火) 21:38:24.37

:d4J1pA0H

中国語ならUTF-16のほうが有利？

613

： [sage] 2018/08/07(火) 23:58:44.52

:r6gcb8rL

エディタとかUTF-32に対応してないのが多いよな。
まあ、無駄が多いからな。最上位の1バイトは必ず0x00になるから。

614

： [sage] 2018/08/08(水) 00:28:20.77

:rL4NvpAX

UTF-16は廃止してUTF-20を策定すべき

615

： [sage] 2018/08/08(水) 00:34:22.04

:tqYMmDjs

UTF-24じゃないの

616

： [sage] 2018/08/08(水) 01:56:39.24

:00np0Lo5

ランダムアクセスが一番早い文字コードはどれよ

617

： [sage] 2018/08/08(水) 02:09:19.94

:kZ99Qrjg

余ってる場所を余計なことに使う奴が絶対出てきて、
それを根絶するのに凄い辛い思いをするからヤメレ。

618

： [sage] 2018/08/08(水) 04:24:19.86

:tqYMmDjs

もうこれ人類的に根絶できないんだろうね
一生これなんだろうね

619

： [] 2018/08/08(水) 04:37:42.38

:XhOfYtOw

>>615

utf8でいいよ

620

： [sage] 2018/08/08(水) 08:35:31.20

:/x3y+p/o

そういえば、utf9というのもあったな。３６ビットコンピュータに最適だとか。

621

： [sage] 2018/08/08(水) 14:09:08.17

:QoUOzAqb

UTF-7と言う変態も

622

： [] 2018/08/08(水) 16:40:51.17

:QemCzjVB

Base64

623

： [sage] 2018/08/08(水) 18:02:57.82

:SZpNbR5J

UTF-24を策定するべきだな。
全ての文字を24ビット(3バイト)で表す。
UTF-32の0x00で固定な最上位バイトを省くというので。
BMP外の文字だらけの文章には有利になるだろう。

624

： [] 2018/08/08(水) 22:53:07.77

:jNIJWXgx

>>623

だな、固定長はUTF-24、可変長はUTF-8でいいだろう

625

： [sage] 2018/08/08(水) 23:15:02.85

:oJrY5QK4

UTF16はいらないとかUTF24がよいとか、変な書き込みする人、同一人物？
CPUのレジスタは32bitまたは64bitなので、1バイトをコピーするのも4バイトをコピーするのも時間コストは同じだよ。

626

： [sage] 2018/08/08(水) 23:48:28.49

:EMFNgHK2

1バイトと4バイトとかミクロの性能比較なんか殆ど意味無い

627

： [sage] 2018/08/08(水) 23:49:21.32

:SCPSjdZ4

固定長だなんて幻想をまだ見てるの？

628

： [sage] 2018/08/08(水) 23:50:49.11

:7IOaw32y

固定長の方が高速で便利ですやん

629

： [sage] 2018/08/08(水) 23:57:42.55

:oJrY5QK4

>>626

大ありですよ。

>>627

固定長の方が条件分岐が減るので処理速度が高く、プログラミングもしやすい。

630

： [] 2018/08/09(木) 01:13:33.46

:BF3jeRnZ

>>626

ファイルサイズがでかくなればそれだけ処理をする回数が増えるからダイレクトに効いてくる。

631

： [] 2018/08/09(木) 01:20:56.02

:BtZU6oOJ

CPUひとつあたりの処理速度は10年前とあまり変わってないけど、搭載できるメモリの量は劇的に増えた。
内部実装がUTF32になって文字列リソースが2～4倍になったとしても利用できるメモリはそれ以上に激増しているのでまったく問題なし。
むしろUTF16やUTF32のほうが頭打ちのCPUにも優しい、ということがわかるはず。

632

： [sage] 2018/08/09(木) 09:34:00.04

:Z95VMlij

16は全然優しくない
24もアライメントを考えると優しくない

633

： [sage] 2018/08/09(木) 10:29:52.60

:4BSOUm1q

よし128だ。

634

： [] 2018/08/09(木) 10:44:02.84

:NXkdt6vr

>>625

放っとけば居なくなるのに

635

： [sage] 2018/08/09(木) 11:03:48.44

:Z95VMlij

>>633

合成やセレクタを撤廃できるのなら128でいいよ

636

： [] 2018/08/09(木) 11:05:58.21

:OVYf9YNp

UNCODEv6

637

： [sage] 2018/08/10(金) 22:27:21.22

:GO9W3NJ8

UTF24とかメモリアクセス効率悪すぎるだろ。アライン考えろ。
情報交換用文字コードはエンディアンに依存しないUTF8。
内部用の文字コードはアクセス効率が良いUTF32。
貧乏人専用のUTF16。
それぞれ存在理由があるんだよ。

638

： [] 2018/08/10(金) 23:01:06.31

:d4sNno4d

Windowsの場合、プログラムを何も改修することなくUTF16でサロゲートペアの絵文字を使えているでしょ。
もちろん、文字フォントを描画するAPI、つまりマイクロソフトの中の人が頑張っているからだが。

639

： [sage] 2018/08/10(金) 23:24:23.95

:d4sNno4d

まぁ、Windowsプログラムで、動的に絵文字の肌色・髪色・性別などを変えようと思ったら、
UTF16のサロゲート処理を自分で行う必要があるけどね。

640

： [sage] 2018/08/11(土) 00:03:26.88

:Zp5HrM4G

>>637

24が駄目なら8はもっと駄目なんでないの？

641

： [sage] 2018/08/11(土) 10:22:26.41

:/GDyR5Hs

だからUTF8は内部利用じゃなくて情報交換用なんだろ。

642

： [sage] 2018/08/11(土) 10:45:32.80

:0HQvSoaX

SJISと取り決めてあるテキストデータにUTF8をぶっこんできた取引先があって
翌朝からの日本社会に大混乱を引き起こしかねない危機に晒された経験がある
UTF8滅ぶべしと俺は本気で思っている

643

： [sage] 2018/08/11(土) 10:58:00.76

:kug6FRsz

エンコーディングは関係ないだろ。
決めごとを守れないその取引先と異常データを突っ込まれただけで混乱しちゃうプログラムの問題。

644

： [sage] 2018/08/11(土) 11:30:16.03

:dFDFw6X4

何年か前に、地域の緊急速報のテストメールか何かに
エンコーディングを混在させて文字化けを地域住民に送って混乱させたのあったな
メールテンプレートのエンコーディングと、流し込む本文で混在させちゃったみたいな

645

： [] 2018/08/11(土) 11:51:55.94

:AWnFhpjF

ないしほてし活復を語本日く書に左らか右どけい良もでき書横

646

： [sage] 2018/08/11(土) 13:16:33.61

:uKNQsIii

>>644

去年だぞ

647

： [sage] 2018/08/11(土) 15:11:54.76

:uEbn4tPy

546<<
ケォヴわいくにみ読

648

： [sage] 2018/08/11(土) 15:47:35.74

:UCIDniLJ

中東の言語は確か右からだったよな
やろうと思えば簡単そう

649

： [] 2018/08/11(土) 15:56:48.16

:A8A80vkf

TeXって右から書くのにも対応してるっけ

650

： [] 2018/08/11(土) 18:33:53.99

:Yf3CWOMt

sjisの～とcp932の～の違いって何？
～を入力して検索すると、sjisのほうはヒットしないんよね

651

： [] 2018/08/11(土) 19:10:44.45

:HdyPScyr

>>650

「入力して検索する」
どうやって入力して何を検索するのか他人に分かるように書いたらどうか
入力側がUNICODEで変換不能とかじゃない

652

： [sage] 2018/08/12(日) 00:02:17.72

:ZUsL8uZg

＞649

ArabTeX　を使えば出来ます

653

： [sage] 2018/08/12(日) 14:13:27.50

:pjLEMieq

Draft Emoji Candidates
外部リンク

ttp://jump.5ch.net/?http://unicode.org/emoji/future/emoji-candidates.html

654

： [sage] 2018/08/12(日) 14:20:12.48

:JT/5kO4h

絵文字がんがん増えてるけど、ぱっと見で見分けが付かない微妙なの多いよなぁ

655

： [] 2018/08/12(日) 14:26:24.04

:rtSL/abo

馬鹿は同じ過ちを繰り返す

656

： [sage] 2018/08/12(日) 14:35:29.88

:x/eO0jlG

そのうち洗練されて象形文字になって、やがて漢字に…あれ?

657

： [sage] 2018/08/13(月) 14:33:07.24

:1RU0E1KE

この際1byteを32bitか64bitにしたらどうよ
1byteが8bitになったのはアルファベットや数字が固定長で表せて
2^nbitで処理しやすかったからなんだろうけど
1byteが32bitか64bitになればエンディアンの問題もなくなって分かりやすくなる

658

： [] 2018/08/13(月) 14:58:06.25

:obMX332h

そうなんか？
16新数で2桁でちょうどいいからだと思ってた

659

： [] 2018/08/13(月) 14:59:26.97

:obMX332h

あと 8bit を 1byte というけど
4bit のことをなんていうの？

660

： [] 2018/08/13(月) 15:02:02.90

:L5U4GWSY

>>657

8bitや16bitのCPUはどうすんの？

661

： [sage] 2018/08/13(月) 15:15:08.87

:fDt52YY1

>>657

32bitでも、64bitでも、好きな長さを「word」と呼べばいい。
これで、エンディアンの問題もなくなって分かりやすくなるんだよな。

662

： [sage] 2018/08/13(月) 15:19:57.39

:mSGjli4I

>>659

ニブル - Wikipedia
外部リンク

ttp://jump.5ch.net/?https://ja.wikipedia.org/wiki/%E3%83%8B%E3%83%96%E3%83%AB

> ニブルは4ビットのことである。

663

： [] 2018/08/13(月) 16:04:07.52

:obMX332h

Thx!
DNCL

664

： [sage] 2018/08/14(火) 02:11:13.81

:uURIoDLa

無理。各コンピュータ内部なら好きなビッド数にすれば良いけど、インターネットのほぼ全ての規格はオクテットが基準になってる。
インターネット全部作り直すくらいやらないと今更変更できない。

665

： [] 2018/08/14(火) 09:43:35.42

:UwXfpacN

byteとoctetを区別すればいいだろ

666

： [sage] 2018/08/14(火) 12:58:54.95

:4hamDsGB

>>584

昔の ISO/IEC 10646 がそんな感じじゃなかったっけ？
UCS-4 が Four-Octet Canonical Form (4オクテット正規形) と呼ばれてて
UTF-8 や UTF-16 はあくまで Transformation Format だと。

667

： [sage] 2018/08/14(火) 13:43:48.36

:RlMqh1JW

UTF-32に統一できないなら、UTF-8を残そうがUTF-16を残そうが
どちらも大して変わんないんだよね。
UTF-8 も UTF-16 も既存OSの互換性を保つためにあるのだから

UTF-8はANSI互換性というメリットがあるというけれど
なんてことはない、Unix/Linuxの改修が大変だったから、
文字コードのエンコーディング方式自体を作ったってだけの話
互換性のために作ったものだよ

16bitにすべての文字を収めるのは不可能だが、仮に収まったとしたら
UTF-16はサロゲートペアなどなく1文字16bitというシンプルなものになっていた。

もし最初から32bit必要だと認識していれば、UTF-32という1文字32bitに
統一された素晴らしい文字コードになっていただろう
そしてWindowsはそれを標準文字コードとして採用しただろう。
（WindowsがUTF-16なのは、その頃はUnicode = UTF-16の前身のUCS-2 だったから）

結局固定長でないなら、どちらも面倒なことに大差ないし
互換性を保つために面倒な方式を残すのであれば、
それがUTF-8でもUTF-16でも同じこと

668

： [sage] 2018/08/14(火) 14:30:35.75

:iWXezx4W

UTF-8はエンディアンの問題が無いのが良い

669

： [sage] 2018/08/14(火) 15:00:48.27

:YfFk5ERN

8も16も大して変わらないと言えばそうだけど、種類が少ないに越したことはないし
どっちかひとつ残すならやっぱり8なので、16には退場願いたいね

670

： [sage] 2018/08/14(火) 15:32:16.19

:RlMqh1JW

>>669

Windowsという重要な役目があるので無理だってわかってるだろ？

671

： [sage] 2018/08/14(火) 15:39:29.46

:tR+8FNHO

>>667

妄想は要らん
asciiとの互換性とosの改修は関係ない
16bitに収まったとしたらとか ifを言い出したらきりがない

672

： [sage] 2018/08/14(火) 15:47:44.20

:gsqu+3TO

>>670

昔からMSは独自文字コードが大好きだからUNICODEからUTF-16が無くなっても問題ない

673

： [sage] 2018/08/14(火) 16:47:25.95

:RlMqh1JW

>>671

> asciiとの互換性とosの改修は関係ない

大あり。C言語はASCII互換前提となっている。
具体的に言うと、文字列の終端文字が\0なので
UTF-16やUTF-32といった、1文字の中に\0が
含まれてる場合に対応できない

UTF-8でなければprintfなどの基本的でよく使われる関数
全てをUnicode対応に改修しなければならなかった。
もしくは捨て去さるかだ

674

： [sage] 2018/08/14(火) 16:48:00.48

:RlMqh1JW

>>672

昔からUnicode対応なんですがーｗ

675

： [sage] 2018/08/14(火) 16:54:07.60

:/zOgrF0V

UTF-16やUTF-32も1文字の中に\0が含まれているわけじゃないがな。

676

： [] 2018/08/14(火) 17:16:53.37

:X3bC8nHW

含まれるやろ

677

： [] 2018/08/14(火) 17:17:26.99

:X3bC8nHW

L'\0' は含まれないが '\0' は含まれる

678

： [sage] 2018/08/14(火) 17:18:41.77

:RlMqh1JW

ttp://jump.5ch.net/?http://ash.jp/code/unitbl1.htm

41 41 41 41 0041 A
42 42 42 42 0042 B
43 43 43 43 0043 C
44 44 44 44 0044 D
45 45 45 45 0045 E

右から二番目がUTF16の文字コード
見ての通り基本のアルファベットの中に0x00が含まれてる

つまり ABCは、00 41 00 42 00 43 もしくは 41 00 42 00 43 00 という並びとなり
これをprintf等にわたすとASCII文字として1文字8bitと解釈し、
00を\0とみなすので途中で切れるか全く表示されなくなる

679

： [sage] 2018/08/14(火) 17:21:01.63

:RlMqh1JW

説明足らずな

>>675

が揚げ足取りだと思われると可愛そうなので（笑）
補足してあげると、UTF-16やUTF-32の1文字はそれぞれ16bit or 32bit で
16bitで\0、32bitで\0 は含まれてないと言いたいのだ

だが今は、printfなど1文字8bitと解釈する関数の話をしているので
8bitずつ見ていくと文字の途中に\0が含まれるのだ

680

： [sage] 2018/08/14(火) 17:37:04.18

:YfFk5ERN

まあWindowsみたいにcharはロケール依存のままでwchar_tだけUnicodeという構成もあるので
UnixのUnicode対応にUTF-8が必須だったかというとわからんけどなー

681

： [sage] 2018/08/14(火) 19:46:09.12

:+lmSJTba

>>680

え？ Unixもwchar_tはUnicodeだけど？

682

： [sage] 2018/08/14(火) 20:25:18.83

:cWcfj41B

正確には、既存のコードの多くは wchar_t が使われて無くて、
その対応が大変だっていう話

WindowsはOSすべてを自分たちで作ってるからどうにかなったが、
オープンソースで他人が作ったものの寄せ集めだと対応が大変だろうね

683

： [sage] 2018/08/14(火) 20:38:21.12

:+lmSJTba

gcc は、 wchar_t を16bitと32bitでコンパイル時に選択できるようになっているので、のちのちWindows以上に厄介なことになるでしょう。

684

： [sage] 2018/08/14(火) 22:54:07.34

:YfFk5ERN

>>681

Linuxではそうだけど、Unix一般の話でいうとwchar_tはcharの多バイト文字をひとつの値で表せられるならなんでもいいし
実際BSDはcharがSJISならwchar_tはJISコード

685

： [sage] 2018/08/15(水) 01:31:39.17

:URD+Lz/b

OSの中とかプログラム言語とかどうでもいい。
インターネットとかの通信プロトコルでオクテット(8bit)単位で交信、終端は0x0A 0x0Dとかの特定のオクテットコード列を使用とかになってるのが多数ある。
内部では好きなビット数で処理すれば良いけど、通信には8bit単位の処理系も必須。
ユニコード使うかどうか以前の問題。

686

： [] 2018/08/15(水) 01:44:12.43

:Vx/KYfiZ

ケチケチ言わずIPV6くらいドカンと拡張しようぜ

687

： [sage] 2018/08/15(水) 02:10:10.66

:sxh1cciH

wcharは、内部の符号化に依存しちゃいけないし、幅が 16bitか32bitかに依存するのもよくない
使うのがなかなか難しいね

但し、char と混在させるのは単なる誤り。printf に使うと途中で切れるとかいうのは使う側のミス

688

： [sage] 2018/08/15(水) 05:49:51.06

:fSWxnCwv

wchar_tやったときない

689

： [sage] 2018/08/15(水) 11:55:41.55

:RPpo5aFa

>>687

printfで途切れる云々は仮にLANG=C.UTF-16みたいなロケールがあったとしての話だろ？
isdigit等も実装できないし、規格上できないようになってるとは思うけど

690

： [sage] 2018/08/15(水) 13:30:59.38

:/R99sNfj

>>687

printfはchar（のポインタ）を受け取るんだから、wchar_tは使えないでしょ？
というかcharで表示できない文字だから、wchar_tが作られたというのが正しい

そうなると、printfだけでなく多くの文字列用関数に対して
charバージョンとwchar_tバージョンが必要になって、変更しなければいけなくなるよね
それが大変だからUnix/LinuxはUTF-16には対応するのは現実的に不可能
対応が簡単なUTF-8を作りました。という流れ。

>>689

> LANG=C.UTF-16みたいなロケールがあったとしての話だろ

Unix/LinuxはUTF-16に対応するの大変だから、
そんなロケールは実現できないだろうね

似たような理由EUC-JPは対応できたけど、SJISは対応できなかった

と思ったけど以下のような警告出るけど使えるのかｗ
> # localedef -f SHIFT_JIS -i ja_JP /usr/lib/locale/ja_JP.SJIS
> キャラクタマップ `SHIFT_JIS' は ASCII 互換ではありません, ロケールは ISO C に従っていません

こんなのまで見つけた
外部リンク

ttp://jump.5ch.net/?http://www.ossforum.jp/jossfiles/Linux_SJIS_Support.pdf
ダメ文字（文字の一部に\が含まれる場合）にさえ、あたらなければ大丈夫ってことなんかな
UTF-16と違って確率的には低いだろうけど

691

： [sage] 2018/08/15(水) 15:55:17.05

:fksu3zh2

>>662

シュメール文明の神アヌンナキたちの故郷の惑星のことかと思った

692

： [] 2018/08/15(水) 16:15:54.08

:Y4UT7naw

乳首の甘噛み

693

： [sage] 2018/08/15(水) 16:25:48.18

:fSWxnCwv

>>690

> 似たような理由EUC-JPは対応できたけど、SJISは対応できなかった

kwsk

694

： [sage] 2018/08/15(水) 16:43:22.85

:BHOopni+

>>693

だからダメ文字だって

外部リンク

ttp://jump.5ch.net/?http://ash.jp/code/code.htm
>　また、2バイト文字の中に"\"(0x5C)を含むデータが存在するため、文字列がメタ処理されてしまい、文字化けする可能性があります。

LinuxやUnixに限った話ではないけど、
文字を1バイトずつ処理するようなもの（つまりcharポインタ）は
ASCIIと互換性がないと不具合の原因になる

だからSJISやUTF-16やUTF-32はLinuxやUnixで
ネイティブに処理するのは苦手なんだ

695

： [sage] 2018/08/15(水) 17:20:00.89

:/SQznhgr

中途半端な多encoding対応で不具合が出たという話。要はバグ。

696

： [sage] 2018/08/15(水) 22:23:06.07

:URD+Lz/b

アホか、アホしか居ないか？
それともわざとボケてんのか？
なんで wchar_t の話と printf の話を一緒に語ってるんだ？

wprintf 🤔

697

： [sage] 2018/08/16(木) 02:36:38.02

:agaekNdO

>>696

だからprintfで実装されているものをwprintfに修正するのが大変だって話
またwopenfなどワイド文字対応の関数が存在しない場合も存在する。

それに単純に置き換えてしまうと、今度はASCII環境で動かなくなってしまう
なぜならwchar_tは16bit または 32bitという固定サイズなので
8bitのASCIIは扱えない（当然可変長バイトのUTF-8もwchar_tでは扱えない）

だからwchart_tというものが作られたけど、Linux/Unixはそれを使用して
ワイド文字列対応にするのは現実的に不可能と判断し、
printfで扱えるASCII互換のUTF-8を使うことにした

698

： [sage] 2018/08/16(木) 02:59:55.06

:HgLxU9xg

ダウト
wchar_t で普通に ASCII も使える。当たり前。i18n でプログラム組んだことないだろ？
UNIX 系で utf8 が好まれる最大の理由は内部コードとかじゃなくて、ファイル名。
ファイル名に直接 0x00 が入れられないので。あとはネットワークまわり。

699

： [sage] 2018/08/16(木) 03:50:25.48

:agaekNdO

そりゃ16bit（つまりUTF-16）として書くか変換すりゃASCIIの範囲の文字列は
扱えるだろうさ、そうじゃなくて8bitのASCII文字が扱えないって話

charは1文字8bitとして定義されたものだが、UTF-8を扱う場合は可変長としても考えられる
wchar_tは16bit （または環境によっては32bit）であるがUTF-16を扱う場合は16bit単位の可変長、
つまりサロゲートペアを扱える。しかしwchar_tは所詮16bit（または32bit）単位なので8bitは扱えない

そのためUTF-8のファイルを読み込むときには、wchar_tに変換して読み込まなければいけない。
例えば8bitのASCIIコードであれば残りの8bitを\x00で埋めた16bitのUTF-8に変換するとかしてだ。

このようにASCII互換のデータを扱うためには単純にchar型をwchar_t型に置換しただけでは
だめで変換処理が必要になる。それに対してUTF-8であれば、char型を可変長char型と
みなすことでそのまま扱うことができる。文字列の長さをカウントするときとか
1文字単位で処理しなければいけないところだけ、UTF-8を扱えるライブラリを使えば良い

700

： [sage] 2018/08/16(木) 06:01:32.95

:agaekNdO

訂正

そのためUTF-8のファイルを読み込むときには、wchar_tに変換しながら読み込まなければいけない。
例えば8bitのASCIIコードであれば残りの8bitを\x00で埋めた16bitのUTF-16に変換するとかしてだ。

701

： [sage] 2018/08/16(木) 08:19:53.82

:RvAH1val

ファイルシステムに記録された物理的encodingに依存したコーディングができる方が良いという主張かねぇ。

702

： [sage] 2018/08/16(木) 08:31:16.13

:FM/GQ3/9

Windows標準のXmlLiteというXMLパーサーは、入力ファイルがどんな文字エンコードだろうと、
UTF16に適宜変換するようになっているので、プログラマに読み取り時の文字エンコード選択の余地はない。

703

： [sage] 2018/08/16(木) 10:25:22.61

:Lp1O0T8c

>>701

内部ネイティブ文字コードがcharになっているLinux/Unixでは
char非互換の文字コードに対応するのが大変だったという主張

>>702

Windowsは内部ネイティブ文字コードがUnicode（UTF-16）だから
別にそれでいいのでは？

それにしても結果論ではあるけど、wchar_tは失敗だったねぇ
16bitでは足りないことは最初からわかっていたけど、たとえ32bitであっても
異字体セレクタやらで意味的な1文字のbit数が固定ではなくなってしまった。
固定でないならば単純な実装で文字を扱うのは不可能。
whar_t使うメリットが無くなってしまった。

まあその怪我の功名で絵文字に色がつけられるようになり、肌色の違いも
対応も可能になったんだけど、これも良かったんだか悪かったんだが。
ここまで来たら絵文字以外の文字も全て色変化対応にしたらって思う
そうすりゃエスケープシーケンスなしで色を付けられるよ
もはや文字コードじゃないね

704

： [sage] 2018/08/16(木) 10:57:13.81

:dYP+//4M

Win10 1809のコンソールはUTF-8対応

Windows Command-Line: Introducing the Windows Pseudo Console (ConPTY)
外部リンク

ttp://jump.5ch.net/?https://blogs.msdn.microsoft.com/commandline/2018/08/02/windows-command-line-introducing-the-windows-pseudo-console-conpty/

705

： [] 2018/08/16(木) 11:03:08.50

:wiNukf+g

アホが頑張るとろくなことにならない

706

： [sage] 2018/08/16(木) 20:21:21.81

:HgLxU9xg

wchar_t のこと何もわかっていないのに適当なこと言ってるな。
wchar_t は一つのプログラムで複数の文字コードを切り換えて使うための仕組みで、外部用の多バイトコードから内部文字コードに変換するのは当たり前。
char を wchar_t に書き換えるだけで済むとか誰も思っていない。そんなの言うだけ恥かしい。
大きさも規格では少なくとも 8bit で sizeof(wchar_t) >= 1 というだけ。なので 8bit でも 64 bit でも何でも良い。
windows で UTF16、linux の glibc で UTF32 を wchar_t にいれてるのは勝手にそうしてるだけで、そうしないといけないという決まりはないし、そうじゃないOSも普通にある。内部コードなので何を入れてるかはプログラマやユーザが気にする必要はない。
あと「8bit のASCII」とか寝惚けたこと言ってるけどそんなこと言うやつは文字コードの話する資格ない。ASCII が 7bit というのは常識レベルの知識。

707

： [sage] 2018/08/16(木) 21:42:21.17

:rfZ8gqJr

それで何が言いたいの？

708

： [sage] 2018/08/16(木) 21:43:39.72

:rfZ8gqJr

常識だし当たり前のことだから、
言ってることに間違いはないってことかな？

709

： [] 2018/08/16(木) 21:50:57.04

:VSd23G4R

ｵﾚですら電子ﾒｰﾙでは半角ｶﾅは使わないからな

710

： [sage] 2018/08/16(木) 22:12:07.10

:RvAH1val

今時のまともなMUAでいわゆる半角カナに対応できないものってあるかな？
fj全盛の20年前ならいざ知らず。

711

： [] 2018/08/16(木) 22:16:46.79

:VSd23G4R

C/C++

　The C and C++ standard libraries include a number of facilities for dealing with
　wide characters and strings composed of them. The wide characters are defined using
　datatype wchar_t, which in the original C90 standard was defined as

　　"an integral type whose range of values can represent distinct codes for all
　　 members of the largest extended character set specified among the supported
　　 locales" (ISO 9899:1990 ｧ4.1.5)

　Both C and C++ introduced fixed-size character types char16_t and char32_t in the
　2011 revisions of their respective standards to provide unambiguous representation
　of 16-bit and 32-bit Unicode transformation formats, leaving wchar_t implementation-defined.
　The ISO/IEC 10646:2003 Unicode standard 4.0 says that:

　　"The width of wchar_t is compiler-specific and can be as small as 8 bits. Consequently,
　　 programs that need to be portable across any C or C++ compiler should not use
　　 wchar_t for storing Unicode text. The wchar_t type is intended for storing compiler-defined
　　 wide characters, which may be Unicode characters in some compilers."

ｶﾝﾍﾟｷな引用
やはりｵﾚのﾚｽはｶﾝﾍﾟｷ

712

： [] 2018/08/16(木) 22:23:45.92

:VSd23G4R

会社のﾒｰﾙは勝手にﾒｰﾙに含まれる半角を全角にかえやがる
※　必要で半角をいれてるからな

半角でﾌｫﾙﾀﾞ名つけるﾊﾞｶがいるせいで
その半角を含むﾊﾟｽに格納されてる資料のおいてあるﾊﾟｽを送ると
ﾒｰﾙ送ったあと一時期必ず文句がきてたからな

　その資料にｱｸｾｽできないと
　そんな場所ないと

うんざりしたから
この部分が半角ですと書いてやっても
ｱｸｾｽできないと返信が来る

何度か半角でﾌｫﾙﾀﾞ名つけたﾊﾞｶを探しだして
しばいたろかと思ったわ

713

： [sage] 2018/08/16(木) 22:33:35.19

:jJkSajo2

しばくんじゃなくてフォルダ名を変更すれば済むじゃん
あんたタイムゾーンスレでずっとそういう趣旨のこと言ってるよねｗ

714

： [] 2018/08/16(木) 22:38:11.04

:VSd23G4R

ﾌｫﾙﾀﾞ名は一回変更したわ

すると突然
半角以下にあるﾘﾝｸがすべてｱｸｾｽできなくって
みなが大騒ぎになったわ

そんなことやったのはだれだと
幸いｵﾚがやったとﾊﾞﾚずに済んだが

715

： [sage] 2018/08/17(金) 00:58:59.23

:6wrElEJt

掲示板に半角カナで書くバカもいる

716

： [sage] 2018/08/17(金) 01:01:58.63

:6wrElEJt

メールで送らなければいい
会社のメールを変えればいい
会社を変えればいい

半角君の発想だとこんな感じ

717

： [sage] 2018/08/17(金) 02:37:02.49

:adBXNxGj

掲示板に半角ｶﾅ使うなとか原始人かよw

718

： [sage] 2018/08/17(金) 05:01:13.36

:xjFqJl5K

>>706

今北産業

719

： [sage] 2018/08/17(金) 05:32:43.08

:DWhhxT1h

>>718

そいつは勘違いしてるよ。

Linux/UnixはUTF-16などASCIIと互換性がない文字コードに
対応するのが大変だからUTF-8を作ったという話をしてるのにそれをわかってない
UTF-16に対応しようと思ったら、あちこちで使われてるcharをwchar_tに変えないといけない
printfですら使うことができない。まあ現実的に不可能だわな

最初からUnicode（UTF-16）対応として設計開発された
Windows NTとは違うわけだ

720

： [sage] 2018/08/17(金) 06:41:03.91

:xjFqJl5K

>>719

詳しい解説サンクス
wchar_t 難し杉ない？

721

： [sage] 2018/08/17(金) 07:06:48.04

:p3S4iKgX

外国人は鼻ほじりながら「おまいら大変だなー」と同情してるだろうな
charで全て賄える文字文化圏が羨ましい

722

： [sage] 2018/08/17(金) 14:32:22.25

:qwkl5VTB

＞外国人は鼻ほじりながら「おまいら大変だなー」と同情してる

その手の輩も今はemojiに対応するために結局Unicodeと向き合わなくちゃならなくなってるけどな

723

： [sage] 2018/08/17(金) 17:39:37.76

:6wrElEJt

>>717

フォルダ名に半角カナ使うなとか原始人かよw

724

： [sage] 2018/08/17(金) 17:52:36.10

:KRgOhrj9

>>723

？？

725

： [sage] 2018/08/17(金) 17:57:13.67

:RTbKyx/W

バカ「半角カナを使うと文字化けするんだぞ！使うの禁止！」

それは昔メールでよく使われていたISO-2022-JPに半角カナがないのが
理由なのでSJISやEUC-JP、今の主流のUnicodeにはあてはまりません。
ISO-2022-JPでなければ半角カナ使って良いんですよ。

バカ「む、難しい言葉でごまかすな！」

726

： [sage] 2018/08/17(金) 18:37:13.62

:UXylYx1j

わざわざ使うようなものでもないけどな

727

： [] 2018/08/17(金) 20:09:50.97

:yTcXDgUV

やっぱりバカどもは
なんにもわかってないわ。。。

電子メールでいうテキストというのは
７ｂｉｔだけで表現されたもんをテキストといってるワケ
つまり、伝統的にａｓｃｉｉ（７ｂｉｔ）だけで表現されてるデータをテキストと呼称してる

昔は、７ｂｉｔのデータしかやりとりできなかったネットワークもあったからな
ｕｔｆ－８とかｓｈｉｆｔ－ｊｉｓとかな、メールでは意味不明なバイナリーなわけ

分かる？

そんなテキストもどきでも
いまでもプロトコルの規定どおり７ｂｉｔのデータ以外を発信してはいけないのは当然

　
　Ｃｏｎｔｅｎｔ－Ｔｒａｎｓｆｅｒ－Ｅｎｃｏｄｉｎｇ：　７ｂｉｔ　←　コレは絶対だからな

ｕｔｆ－８やｓｈｉｆｔ－ｊｉｓのテキストもどきならｂａｓｅ６４エンコードするとかしないといけない
そのままがいいならｕｎｉｃｏｄｅのエンコード形式でｕｔｆ－７という選択肢もある

728

： [] 2018/08/17(金) 20:12:42.50

:yTcXDgUV

お、書けた
ﾙｰﾀ再起動でも書けなかったのに

>>727

のﾚｽをｻｸﾗで半角全角変換するだけで書けた
どの部分がよくなかったのかよくわからん
ｻｰﾊﾞｰが

>>727

のﾚｽをｾｷｭﾘﾃｨﾌﾞﾛｯｸではじいてるみたいだったからな

まあいいか

729

： [sage] 2018/08/17(金) 20:12:47.89

:xjFqJl5K

今北産業

730

： [] 2018/08/17(金) 20:14:07.81

:yTcXDgUV

日本のすべてのｼｽﾃﾑではずっとな
ﾒｰﾙのﾃｷｽﾄ表示まで保証されてるのはiso-2022-jpにﾏｯﾋﾟﾝｸﾞできる文字だけだからな
iso-2022-jpにﾏｯﾋﾟﾝｸﾞできない文字はそもそも保証されてない

※ JISにﾏｯﾋﾟﾝｸﾞできないUnicodeやShift半角ｶﾅなんか保証してない
※ 最低でもiso-2022-jpのﾌｫﾝﾄなら日本のどのｼｽﾃﾑにも用意できてるﾊｽﾞだからな
※ そうでないとﾃｷｽﾄすら表示できない

保証されなくてもいいなら、そのままばっちいままのﾃｷｽﾄもどきをｴﾝｺｰﾄﾞして発信すればいいﾜｹ
別にUTF-8、Shift_JISで送ってはいけないということはない
※ UTF-8なんかもともとｴﾝｺｰﾄﾞされてるｵｸﾃｯﾄをさらに7bitにｴﾝｺｰﾄﾞしてから発信することになる

わかった？

731

： [] 2018/08/17(金) 20:17:14.05

:yTcXDgUV

結論をいえば
受信されるｼｽﾃﾑで最終的にそのｼｽﾃﾑ用にﾃﾞｺｰﾄﾞまでできて
表示まできるのなら問題ない
それだったら受信したﾔﾂも腹もたたない

表示できないﾒｰﾙもらったら腹立つだろ
ﾃﾞｺｰﾄﾞ未対応だったり未対応形式だったりするｴﾛ動画をしらずにﾀﾞｳｿしてな、
そのｴﾛ動画が再生できないのと同じぐらいの強いｲﾗﾀﾞﾁを感じるﾊｽﾞだからな

732

： [] 2018/08/17(金) 20:18:53.90

:yTcXDgUV

ﾎﾝﾄなこの板は低学歴底辺知恵遅れのｺﾞﾐｸｽﾞしかいないのがよく分かるわ

　> あと「8bit のASCII」とか寝惚けたこと言ってるけどそんなこと言うやつは文字コードの話する資格ない。
　> ASCII が 7bit というのは常識レベルの知識。

ID:HgLxU9xgやｵﾚみたいにきわめて常識的なこといってるﾔﾂが叩かれて
しったかﾃｷﾄｰなこといってる低学歴底辺知恵遅れが幅をきかせてるのがこの板だからな。。。

733

： [sage] 2018/08/17(金) 20:29:28.96

:RgiGOjCt

>Ｃｏｎｔｅｎｔ－Ｔｒａｎｓｆｅｒ－Ｅｎｃｏｄｉｎｇ：　７ｂｉｔ　←　コレは絶対だからな

前世紀の遺物かよｗ
つかオマエ、mohtaみたいでキモいんだが。

734

： [] 2018/08/17(金) 20:32:13.67

:yTcXDgUV

　MIME-Version: 1.0

MIME-Versionは1.0しかない
ﾎﾝﾄな知恵遅れがいってることは
いつも意味が分からない

735

： [] 2018/08/17(金) 20:34:01.29

:yTcXDgUV

低学歴底辺知恵遅れの世界にﾌﾟﾛﾄｺﾙなんかないからな

低学歴底辺知恵遅れﾄﾞｶﾀは
ﾈｯﾄﾜｰｸのﾌﾟﾛｸﾞﾗﾑなんかやらないから関係ない

736

： [] 2018/08/17(金) 20:37:37.32

:yTcXDgUV

低学歴底辺知恵遅れと
まともな人間の間では
そもそも意思疎通は不可能

ﾌﾟﾛﾄｺﾙがまったく違う
低学歴底辺知恵遅れ特有のﾌﾟﾛﾄｺﾙがあるらしいが
ｵﾚはそのﾌﾟﾛﾄｺﾙがまったく分からない

737

： [sage] 2018/08/17(金) 22:48:02.68

:dUYwrsCb

氏名における「髙」や「𠮷」や「乭」 | yasuokaの日記 | スラド
外部リンク

ttp://jump.5ch.net/?https://srad.jp/~yasuoka/journal/623209/

読売の元の記事貼ろうと思ったらネット上には無かった……。
JIS X 0213ベースなのか？
戸籍統一文字と住基ネット文字コードの擦り合わせしたデータベースはどうするんだあれ

738

： [] 2018/08/18(土) 12:04:57.41

:TgZCKLMK

UNICODEで恥ずかしい書き込みしてた人が
大量レスでスレ流ししてるようにしか見えない

739

： [sage] 2018/08/18(土) 12:25:36.64

:XOnooV72

ID:yTcXDgUV
連投してID赤くしてたら誰もレス読まないぞ

740

： [sage] 2018/08/18(土) 12:27:24.39

:/9y7PjMS

>>739

＞ID赤くしてたら
皆が皆、専用ブラウザを使っているとは限らないのでは？

741

： [sage] 2018/08/18(土) 12:33:47.22

:KC80I9ck

unicode の議論と wchar_t の議論を混ぜるやつは素人。
unicode が普及するすっと前から wchar_t は普通に使われてる。

742

： [sage] 2018/08/18(土) 14:13:23.54

:5gN61dbI

そりゃ使われてるかどうかで言えば使われてるだろうけど。

そんなことよりも技術的な所気にならない？

問1 16bitのwchar_tで1バイトまたは 3バイトのEUC-JPを
扱う場合メモリイメージはどのようになるでしょうか？

問2 32bitのwchar_tで1バイトのEUC-JPを扱う場合
メモリイメージはどのようになるでしょうか？

答えわかる？意外すぎてびっくりするよ。

743

： [sage] 2018/08/18(土) 14:15:44.35

:5BnyFmRJ

16bitのwchar_tや32bitのwchar_tの使い方（エンコーディング）によるとしか

744

： [sage] 2018/08/18(土) 14:18:12.19

:5gN61dbI

>>743

そういう答えの場合は、知ってる実装を一つだけでもいいので答えてくれればいいよ

745

： [sage] 2018/08/18(土) 14:33:57.87

:KC80I9ck

>>744

コンパイラとか libc を設計する奴以外は内部実装関係ないやろ。内部実装に依存したら移植性が無くなる。
知りたかったらlibcのソース嫁。最近の linux の glibc ならUCS4に統一。昔のunixだと EUCコードそのまま16ビットでフラグ付きで入れてた。

746

： [sage] 2018/08/18(土) 14:42:51.01

:5gN61dbI

> 昔のunixだと EUCコードそのまま16ビットでフラグ付きで入れてた。
それはwchar_tが32bitってことかな？
16bitでは不可能だよね？

747

： [sage] 2018/08/18(土) 14:48:48.76

:/4eOy7p1

wchar_t自体はcharset/encoding独立だとしても、実際にEUC-JPを格納する実装が
存在していたとは知らなかったな。

748

： [sage] 2018/08/18(土) 14:55:58.85

:KC80I9ck

>>746

知らないなら、変な知ったかぶりせずに黙ってるべき。
実装によって色々差があるけど最上位ビットとかをフラグに使用して16ビットに詰め込んでたんだよ。
うろ覚えだけど、例えば
0021-007e に ascii
00a1-00fe に jis kana
2121-7e7e に 0208
a1a1-fefe に 0212
とか、そんな感じ。

749

： [sage] 2018/08/18(土) 15:23:20.80

:bNUWoVQ1

やけに wchar_t にこだわる（かみつく）奴がいるけど理由がわからん
内部がどういうエンコーディングかはプログラマは意識する必要ないのに

750

： [sage] 2018/08/18(土) 15:32:18.21

:KC80I9ck

>>747

16ビットでなくて 32ビットで良いなら、今でも FreeBSD は EUC-JP をそのまま wchar_t に入れてる。
32bit なのでフラグ操作とかもなくて生のまま 0x008fa2be とか 0x00008ea0 とか。

751

： [] 2018/08/18(土) 16:04:03.91

:M4v7ary7

低学歴低知能のｸｸｿﾆｰﾄどもや底辺ﾄﾞｶﾀどもは
自分がどんだけ知恵遅れなこと書いてるのか
なかったことにししてる

ｻﾏｰﾀｲﾑｽﾚでも同じだからな
ｺｲﾂﾗ

752

： [] 2018/08/18(土) 19:02:32.17

:IyhzoKxX

>>742

漏れの知ってる答えは
１も２もそういうコード書く奴はクビ

753

： [sage] 2018/08/21(火) 10:01:44.15

:O500W7m7

RFC 8369 - Internationalizing IPv6 Using 128-Bit Unicode
外部リンク

ttp://jump.5ch.net/?https://tools.ietf.org/html/rfc8369

754

： [sage] 2018/08/21(火) 14:20:52.24

:avvvfppX

あれだろうなと確認したらやはりあれだった

755

： [sage] 2018/08/21(火) 14:31:10.12

:Y1HyydAv

ああ、アレだな

756

： [sage] 2018/08/21(火) 15:54:58.52

:R5Y2p11o

あれだよねあれ。あれ安くて美味しいよね

757

： [sage] 2018/08/21(火) 15:56:11.80

:dhW5/kUC

え？ハトが？

758

： [sage] 2018/08/24(金) 18:18:47.09

:mVdVBkdF

すいません文字コードについて教えてほしいことがありますマジものの初心者なんですがどうかおねがいします

Unicodeの一種（？）で65280文字ある種類のものを、なんと呼ぶのでしょうか。
（最初の方は透明に見えるフォントで始まり、最後の方は全角英数などが割り当てられています
外部リンク

ttp://jump.5ch.net/?http://www.m-hoz.com/jsp/unicode.jsp?Bgn=0&End=65536
このページと想定しているものはまったく同じです）
WikipediaなどでUnicodeの記事を読んだのですが、バージョンや面やサブセットなどたくさんの種類があり
私が利用したいと思っている65280文字を含むUnicodeの一集合のことをなんと呼べばいいのか分かりませんでした。
というか正直、Unicodeというのは65280文字（0xFFFF番目ですから）までしかないものと思っていましたが
なんかそれを遥かに凌ぐ量の文字が収録されていると書いてあり余計に混乱してしまいました
文字コードに関する知識がほとんどなくおかしい文章になってしまいすいませんよろしくおねがいします。

759

： [] 2018/08/24(金) 18:42:02.68

:NFTQhSIK

65536-256

760

： [sage] 2018/08/24(金) 18:46:30.51

:qhlQ/zrJ

>>758

正直なところ何を言いたいのか理解できないのだが、Unicode で定義されている文字なら公式サイトで全部見られるよ。

Code Charts
外部リンク

ttp://jump.5ch.net/?http://unicode.org/charts/

761

： [sage] 2018/08/24(金) 19:19:57.24

:wXpFbMeR

>>758

基本多言語面

ttp://jump.5ch.net/?https://ja.wikipedia.org/wiki/%E9%9D%A2_(%E6%96%87%E5%AD%97%E3%82%B3%E3%83%BC%E3%83%89)#%E5%9F%BA%E6%9C%AC%E5%A4%9A%E8%A8%80%E8%AA%9E%E9%9D%A2

Unicodeは似てる文字を一つにまとめて約6万5000文字（16bit）に収めるぞーって
言っていたのが、案の定無理だと破綻し（だから言っただろうがバカメリケンが）、
21bitを使い最大で約111万文字収録可能になってる
最新のUnicode 11.0 では13万7439文字が収録されてる

762

： [sage] 2018/08/24(金) 19:24:24.02

:wXpFbMeR

Unicodeはもはや文字コードじゃない
文字シーケンスというべきだろう
複数の文字を使って1文字を表している

763

： [sage] 2018/08/24(金) 20:11:02.68

:mVdVBkdF

>>761

「基本多言語面」
ありがとうございます！すみません。言い方がボケナスで余計な労力をお掛けしました。
この言葉が知りたかったのです。

ちなみに極めてどうでもいいことですが
マインクラフトというゲームのフォントを変えたいと思っており
その為のフォントおよび文字コードの勉強していこうとしていたところでした。

764

： [sage] 2018/08/25(土) 06:50:31.16

:gxBSyOuw

HTML のフォント指定は、こういう感じ。
「html フォント指定」で検索！

HTMLの文字コードは、UTF-8

フォントを変更します

これは明朝体を指定

それとも、マインクラフトはHTMLじゃないのか？

765

： [sage] 2018/08/25(土) 07:11:24.89

:5ar3I1wr

>>762

合字はそうすることが自然だからそうなってるんだと思ってるんだけど、全部個別に文字コードを割り当てたほうがいいってこと？

766

： [sage] 2018/08/25(土) 09:10:13.50

:2/0/KxdV

>>764

マインクラフトのフォントは
./assets/minecraft/textures/font
というディレクトリに16ドットフォントが16列16行配置されたPNG形式の画像が0xFF枚格納されてる
というような仕様になってますね
HTMLはあんまり関係ないです。

767

： [sage] 2018/09/07(金) 14:01:42.05

:NnTKHa0h

&hearts;

768

： [sage] 2018/09/10(月) 17:53:51.80

:wWJP5KoS

Unicodeの公式サイト（外部リンク

ttp://jump.5ch.net/?http://unicode.org/）で，Unicodeの最新安定バージョンがなにかを調べるにはどこを見ればいいんですかね。
今11.0だそうですが，他サイトの情報なので，なるべく本家本元の情報が欲しいんです。

769

： [sage] 2018/09/10(月) 19:07:05.53

:Xr++yj7Q

>>768

ちゃんとメニューを見よう。

サイトの左側のメニューから The Unicode Standard プルダウンの中にある Latest Version を選べばよい。
というわけで、現時点では 11.0 が最新という認識で正解です。

770

： [sage] 2018/09/11(火) 03:10:58.81

:zLtJmO+E

>>769

あざす。

ttp://jump.5ch.net/?http://www.unicode.org/versions/latest/
ここにアクセスしたら自動的に最新版に繋がりますね。

771

： [sage] 2018/09/12(水) 15:59:00.59

:DAmcAY4y

Unicodeって，なんで初めに多バイト文字のことを考えなかったんだろう。
そもそも多バイト文字を統一するために設立したようなもんなんだから，
2^16では済まないことくらい予測できた筈なのにね

772

： [sage] 2018/09/12(水) 16:00:08.88

:3JFFS4nO

The Unicode Blog: New Japanese Era
外部リンク

ttp://jump.5ch.net/?http://blog.unicode.org/2018/09/new-japanese-era.html

Unicodeの方でも記事になってたのか。

773

： [] 2018/09/12(水) 16:39:35.87

:1j3hWxX7

>>771

アルファベット二十数文字しか使ってない奴らが
六万文字もあれば世界中全部の文字カバーできるよな
って雑に考えたから

774

： [sage] 2018/09/12(水) 17:33:44.29

:lrlSblfi

>>773

ちょっと漢字の知識があっても漢字が５万字くらいだろ？
漢字で5万使って残り1万5千だな、余裕だろって感じだったんだろうな

775

： [sage] 2018/09/12(水) 22:23:14.60

:DAmcAY4y

>>774

まあ正直，日本人でも特段勉強してなかったらそういう感覚やろうしな

776

： [] 2018/09/12(水) 22:25:38.00

:yfKtIfo2

で、ﾊﾞｶは5ﾏﾝの漢字全部読めるの？
で、ﾊﾞｶは5ﾏﾝの漢字全部書けるの？
で、ﾊﾞｶは5ﾏﾝの漢字全部使えるの？
で、ﾊﾞｶは5ﾏﾝの漢字全部使ってるの？

777

： [] 2018/09/12(水) 22:30:26.22

:yfKtIfo2

卜部の卜
トﾅｶｲの卜
見た目でも違いなんかまったくわからない

778

： [sage] 2018/09/13(木) 02:31:52.28

:cMp+qWRQ

でもコンピュータに合わせて世界を
作り変えることができるなら、
65535文字に抑えるだろうな

サマータイムもない世の中
文字も16進数が基本かな
電気の流れもマイナスからプラスへだ

779

： [sage] 2018/09/13(木) 08:51:11.89

:wI3BpnoI

君が代によれば、天皇の世は八千代続くので、
元号の合字も８０００個必要になる。
Unicodeのどこかの面にまとめて確保できないものだろうか。

780

： [sage] 2018/09/13(木) 09:03:45.21

:1sKEH3Wo

>>778

おおむね賛同するが
電流の流れが電子の流れと逆なのは電算機登場以前の話だぞ

781

： [] 2018/09/13(木) 09:54:19.07

:l9KSlvFS

>>774

宇宙人と交信する予定は無かったのか

782

： [] 2018/09/13(木) 09:56:12.02

:l9KSlvFS

>電気の流れもマイナスからプラスへだ

これいつかやっても良いと思うけど
どこにどんな影響が出るんやろね
数学の外積の定義とかも変えたくなりそう

783

： [sage] 2018/09/13(木) 16:01:34.38

:Mtznb6SP

>>782

電子がマイナスからプラスへと流れると電流がプラスからマイナスへ流れるという理解で問題ない

784

： [sage] 2018/09/13(木) 17:09:43.69

:1sKEH3Wo

数字が連続してない符号化文字集合ってあるのかな。
EBCDICとかは英語が連続してないことで有名だけど。

785

： [sage] 2018/09/13(木) 19:23:35.05

:U1nKZv8x

C言語の規格で'0'から'9'は連続していることになってたと思うから
そうじゃない文字コードがあったとしてもとっくに淘汰されてるのでは

786

： [] 2018/09/13(木) 19:34:24.00

:l9KSlvFS

どうせ文字集合じゃねーって言われるけど
漢数字

787

： [sage] 2018/09/13(木) 19:47:56.84

:QXoXnqLA

0～9は世界共通文字
どの国でも同じ文字が使える

788

： [sage] 2018/09/13(木) 20:25:28.42

:U1nKZv8x

世界共通になる前に6と9のどちらかを変更しておいて欲しかった

789

： [sage] 2018/09/13(木) 21:10:29.13

:1sKEH3Wo

>>786

毎日のように使うのに、普通に気が付いてなかった。
おもしろい。
けど文字集合ではないなw

>>788

あと1と7

790

： [sage] 2018/09/13(木) 21:35:44.08

:1sKEH3Wo

漢数字がそれが表わす数字順に並ばないって結構有名だったのか……恥かしい

791

： [sage] 2018/09/14(金) 06:35:40.18

:gu26jl1+

>>788

9って手で書くときはqみたいな形じゃない？
なんでコンピュータのフォントだと丸まるんだろう。

792

： [sage] 2018/09/14(金) 07:22:37.60

:jXQgdfuV

>>791

ビリヤードの玉なんかわざわざ区別のつかないような字形にした上で
区別が付くように線を引いてるんだぜ

793

： [] 2018/09/14(金) 12:40:21.98

:5xDSXwp0

>>788

ＲとЯ

794

： [sage] 2018/09/14(金) 15:58:06.01

:V0YFlSa+

1960年代1970年代では、
コーディングシート上で「O(オー）」」と「０（ゼロ９）とを
区別するために

Fortranは「「O（オー）」の上に傍線を書いたし、
COBOLでは、「０（ゼロ）」に斜線を引いて区別
してたような気がする。

「I（あい）」と「１（いち）」の場合は、「Ｉ（アイ）」を
小文字の「i」を使っていたような気がする。

なにぶん、古い話なので、間違っているかもしれないが
一応参考までに

795

： [sage] 2018/09/14(金) 16:10:40.01

:cGEdpT46

斜線入りの0
VS使ってU+0030 U+FE00で表せるように
なってたんだな。

796

： [sage] 2018/09/14(金) 16:32:11.43

:jXQgdfuV

>>795

本当だ！
って、なぜVS？重ね書きでいいのだから合成では、って探したらU+0338 U+0030でもいいらしい……
二重収録……

797

： [sage] 2018/09/14(金) 18:22:58.68

:q3l06dS7

まーーた「異字体」という概念を欧米のやつらがめちゃめちゃにしやがったな

798

： [] 2018/09/14(金) 19:03:02.27

:YqXme0/t

>>794

Dも横線入れたり、Uは必ず小文字のヒゲ書いたな
今でも手書きアルファベットでついやっちまうｗ

799

： [sage] 2018/09/14(金) 19:03:15.35

:TqoCD1dQ

Unicodeをめちゃくちゃにしてるのは大昔の馬鹿な中国人

800

： [sage] 2018/09/14(金) 21:49:17.28

:J5fDz/kR

斜線入りゼロの全角版もU+FF10 U+FE00で規定しようとしてるな。
もうアホかと。

801

： [sage] 2018/09/14(金) 22:09:46.77

:zZtMiOUI

あーあもうめちゃくちゃだよ…

802

： [sage] 2018/09/14(金) 22:50:34.15

:G7suMYm4

21bitも使わせるからそんな浪費するんだよ。16bitで我慢させておくべきだった。

803

： [sage] 2018/09/15(土) 00:35:10.02

:RLWLi0Yo

多コードポイント文字(←？)なのでビット数関係ない
むしろ、16bitに詰め込むために合成やVS、ZWJのような小細工が作られてしまって
それが乱用されてる

804

： [] 2018/09/15(土) 00:49:16.31

:KIanXBkQ

UCS-4でｺｰﾄﾞﾎﾟｲﾝﾄで利用できる領域は21bitまでときまってる
ｺｰﾄﾞのﾚﾝｼﾞはMSBを除く31bitまで

ｺｰﾄﾞﾎﾟｲﾝﾄのﾋﾞｯﾄ数とｴﾝｺｰﾄﾞのﾋﾞｯﾄ数は関係ない

相変わらず低学歴知恵遅れは
意味不明なことばっかりいう

805

： [sage] 2018/09/15(土) 08:00:03.75

:JGlclHBn

>>804

知恵遅れは自分の思慮の浅さを認識出来ないから知恵遅れなんだぞ
仮に間違っていても何らかの意図や思惑があって発言したものを
意味不明と思考停止した時点で自分が馬鹿だと宣言するようなものだから
賢いつもりならもっと謙虚な態度を取るべきだ

>>803

は複数のコードポイントのシーケンスで一文字を表す体系を採用した時点で
コードポイントが何ビットかはそれほど重要な問題じゃないと言っているわけだし
基本面しかなかったころにUCS2でコードポイントを16bitで表現していたのだが
賢いつもりならそれを分かっててそんな馬鹿のことを書いてるのか？

806

： [sage] 2018/09/15(土) 10:09:57.93

:RLWLi0Yo

お、おう……ありがとう
「誰一人エンコーディングの話はしてねーだろ幻視かそれともセレクタ知らんのか」ぐらいは書こうとしたんだが

807

： [sage] 2018/09/16(日) 22:47:16.05

:R5KpyTLY

>>796

U+0030 U+FE00は標準化されてるけどU+0030 U+0338の方はそうじゃない
スラッシュ0っぽいものになるかもしれないという程度
あとVSは検索時には無視されるんで0030と等価になる

808

： [sage] 2018/09/18(火) 13:57:58.92

:5qlr0JT7

>>807

従来のやり方に合わせるとU+0030 U+0338に対応するNFC形式を用意して検索は互換分解で対応ってならね？
逆にVSを検索時無視するという仕様を活用するなら、互換分解よりもそっちが良かったって文字が他に沢山ない？
まあ、今更言ってもなんだ

809

： [sage] 2018/09/18(火) 13:58:59.04

:5qlr0JT7

訂正、合成文字の方が先だからU+0338 U+0030

810

： [sage] 2018/09/18(火) 22:20:07.57

:rWjVnVL/

なんで混同している人がいるのかえあからないけど合字と変種は別のものだよ。
合字はもとの文字と別物として扱われるのに対して、変種はあくまで同じ文字の字形違い。

811

： [sage] 2018/09/21(金) 03:58:13.13

:dtC8HZuo

すいません
「��d」
という文字列を解読したいです。
$ echo '<当該文字列>' | od -A xn -t x1
の結果は
000000 ef bf bd ef bf bd ef bf bd ef bf bd ef bf bd ef
000010 bf bd ef bf bd ef bf bd ef bf bd ef bf bd ef bf
000020 bd 64
のような感じです。
個人的には\0x0eや\0x0fが多く登場しているのでUTF-16あたりをUTF-8で解釈しているのかなとも思いまして
iconv(1)などでどうにかしようとしました（iconv -c -f utf16 -t utf8）が駄目でした。

どうかよろしくおねがいします。

812

： [sage] 2018/09/21(金) 06:10:45.73

:v8LFlyn0

>>811

無理です

813

： [sage] 2018/09/21(金) 08:54:48.61

:YSf5+rmt

>>811

utf8のEF BF BDは、utf16ではFFFD（非文字）。
例えば、エンコードに失敗した時に使われる。

814

： [sage] 2018/09/21(金) 16:14:43.03

:dtC8HZuo

>>813

なるほど。復元は無理ってことですね。thx

815

： [sage] 2018/09/21(金) 22:27:01.36

:VETs/R35

URLエンコードとか16進文字列で表示してほしいよね。
文字化け文字列を表示されても途方に暮れる。

816

： [] 2018/09/22(土) 12:49:11.01

:xOVRbYWf

>>815

表示したい文字とそれ以外をどうやって区別させる？

817

： [] 2018/09/22(土) 13:55:53.33

:PGp2AKzL

低学歴知恵遅れの世界ではｸﾞﾘﾌが違うように見えれば
その字じたいがもつ意味もかわる

818

： [] 2018/09/22(土) 16:15:38.71

:lyt/iYyi

φと Φ の小さい字が小文字 ɸ だと一緒のはずなんだが環境によって違うのが困る unicode のくせに

819

： [sage] 2018/09/23(日) 04:36:37.16

:D4/zD5nR

ttp://jump.5ch.net/?https://github.com/JuliaStrings/utf8proc
これすばらしいね。
UTF8の煩雑な処理がC89という極めて汎用で互換性の高い言語で扱えるなんて。

ただUnicode11対応を謳ってる割には曖昧文字幅が考慮されてないのが難点
issueやPRを見てるとそれっぽい対応がされてるのかどうなのか……。
外部リンク

ttp://jump.5ch.net/?https://github.com/JuliaStrings/utf8proc/pull/83 👀
Rock54: Caution(BBR-MD5:1341adc37120578f18dba9451e6c8c3b)

820

： [sage] 2018/09/23(日) 13:00:23.58

:7oyGtio1

>>816

書き手と読み手で共通のルールを作ればいいだけのこと。
どのみちASCII文字しか使えないので禁則文字が必要。

821

： [sage] 2018/09/25(火) 01:23:30.21

:lmrEE7TE

ttp://jump.5ch.net/?https://www.softek.co.jp/SPG/Pgi/performance52.html
ここのページのエンコーディングって分かる？
EUC-JPで読みこむと漢字だらけ
Shift JISで読みこむと半角カナの「ｽ」だらけ
UTF-8で読みこむと非文字だらけ

822

： [] 2018/09/25(火) 11:23:08.18

:Ldj267OX

chrome で開いたけど問題なく日本語出るぞ
おまいのブラウザが糞なんじゃね

ブラウザ経由せずに python でダウソしたら中身 UTF-8 のファイルが出来た
<META http-equiv="Content-Type" content="text/html; charset=EUC-JP">
EUC-JP ってことになってるな

823

： [sage] 2018/09/25(火) 12:50:25.51

:lmrEE7TE

やっぱFirefoxはゴミですね

824

： [] 2018/09/25(火) 13:50:17.89

:O6wzDQwM

そのサイトうちのffタソは普通に日本語出してる

825

： [sage] 2018/09/25(火) 15:39:49.76

:po7dXpcK

夜に見たときはFirefoxでもChromiumでもWaterfoxでも
ID:lmrEE7TEが言うような文字化けになってたけど
今はFirefoxでもChromiumでもWaterfoxでも文字化けせずに見られる
そのサイトのほうがおかしくなってたんじゃないか?

826

： [] 2018/09/25(火) 15:45:45.33

:O6wzDQwM

apacheとかデフォでutf-8に強制変更とかあるからな

827

： [sage] 2018/09/25(火) 16:40:21.10

:hDTNQGQ/

>>825

同じく
夕べ、バイナリモードでgetしたhtmlが思いきり文字化けしてたわ

828

： [] 2018/09/25(火) 16:45:52.15

:EqDfiqim

奇遇ですね
私もちょうど昨日そのサイト見てました

829

： [sage] 2018/09/25(火) 17:23:14.79

:lmrEE7TE

あっっれ。
まさかなと思ってもう一度行ったらなんかちゃんと読めるようになってたわ。
うーん。向こうの不具合かな。とりあえずFirefoxに濡れ衣を着せてしまったことをお詫びします。

ただしFirefoxには
外部リンク

ttp://jump.5ch.net/?http://www.am.ics.keio.ac.jp/~keisuke/lab/ptex218.html
↑このページが読めないという前科があるんだよね。

830

： [] 2018/09/25(火) 17:33:32.27

:EqDfiqim

最近のブラウザは一時的に文字コード指定するメニュー無くなった

831

： [sage] 2018/09/25(火) 17:41:54.78

:UWcApuPo

>>829

そのページはサーバーでUTF-8決め打ちで送って来てる
ファイル内に書かれたcharsetとどっちを優先するかって話なのかな

832

： [sage] 2018/09/25(火) 18:07:13.36

:po7dXpcK

ttp://jump.5ch.net/?http://www.am.ics.keio.ac.jp/~keisuke/lab/ptex218.htmlは
WaterfoxやChromiumでも文字化けする
Waterfoxだと文字コードの手動切り替えで対応できるけど
自動判定できない状況に陥っているのだからサイト側の問題なんだろうね

833

： [] 2018/09/25(火) 18:35:00.27

:EqDfiqim

HTTPはheaderみてそっち優先のブラウザばっかになってつまらんぬ

834

： [sage] 2018/09/25(火) 18:40:37.62

:YBMAwOu6

そういえば、昔おまじない文字ってあったよな
「京」とか

835

： [sage] 2018/09/25(火) 19:00:03.09

:lmrEE7TE

だいたい日本語TeXを使ってるのなら文字コードに関する知識はそれなりにある筈なんだけどなぁ

836

： [] 2018/09/25(火) 19:01:52.45

:EqDfiqim

>>834

美乳

837

： [sage] 2018/09/25(火) 23:09:37.69

:dH/9GcKQ

>>829

EdgeでもIE11でも読めないぞ。
これもFirefoxのせいじゃない。
ちなみにw3mでは読めた。

>>832

サーバーがレスポンスヘッダで文字コードをUTF-8と返してるからそれに従ってるだけ。
そもそも自動判定しようとしてない。それなのにコンテンツはUTF-8以外(ISO-2022-JP)で出来てる。
要はサーバーの設定とコンテンツの不整合。
恐らくサーバー更新時に古いコンテンツのことを考慮してなかったんだろうな。

838

： [sage] 2018/10/01(月) 00:48:09.88

:MJnLVykJ

これってよくあるよな

839

： [sage] 2018/10/01(月) 06:54:49.15

:lrLCBstk

なにが？

840

： [sage] 2018/10/01(月) 09:18:19.81

:CSe7Ol42

サーバーが余計なこといってるやつ

841

： [sage] 2018/10/02(火) 15:20:38.65

:YIYqcJyy

RedHat や CentOS のパッケージで Apache をインストールするとデフォルトで AddDefaultCharset UTF-8 が有効になっているのが原因。
この設定をコメントアウトし忘れると今回のようなことが起きてしまう。

これ、わりと迷惑度合いの高いデフォルト設定なんだよねえ……

842

： [] 2018/10/02(火) 15:47:12.77

:yDKwoLm6

何を今更

843

： [sage] 2018/10/03(水) 08:04:57.07

:ej0n10jM

UTF-8デフォルトはそれこそLinux機にとっては嬉しいんだけどねぇ
ちなみにnghttp2というHTTP/2に特化したWebサーバーは
HTTP/2の既定エンコーディングがUTF-8であるにもかかわらずなんとASCII。
いつの時代だよ……。しかも古いプロジェクトじゃなくてめっちゃ新しいのに……。

844

： [sage] 2018/10/09(火) 21:29:38.61

:cJ7fFqob

最近またUnicodeが分からなくなってしまった。
単にShift_JISのような
「一部コードを拡張マップ専用の文字にして後続のコードを
その拡張マップ専用の文字のコードと連続した（つまり2次元的な配置の）コードとして
処理する」
っていう方法ではないのか。

845

： [] 2018/10/10(水) 01:30:32.33

:cxHjn/W/

違う

846

： [sage] 2018/10/10(水) 02:38:09.95

:cuDZW5pF

サロゲートペアの話？

847

： [sage] 2018/10/10(水) 16:28:58.28

:WmZeX0g1

ISOのダウンロードサイトがもう何年も
本文はちゃんとcharset=ISO-8859-1だと書いてるのに
HTTPヘッダでcharset=UTF-8宣言してて台無しになってる。
ASCIIはいいけどフランス語のとこがずっと文字化けしてるんだけど誰も気付かないのかね。

……と書き込もうと思って確認したらいつの間にか直ってたわ、ちっ

848

： [sage] 2018/10/15(月) 00:47:51.51

:FbFcpKzK

実際に使用されていた、おもしろい文字コードとかない？
例えばBaudot Codeは英数字がバラバラの順番で出現する、非直感的な配置になってる。

849

： [sage] 2018/10/15(月) 04:39:56.62

:/DZZgAIK

EBSDICのことか

850

： [sage] 2018/10/15(月) 04:40:51.83

:/DZZgAIK

EBCDICだったすまそ

851

： [sage] 2018/10/16(火) 14:17:09.82

:lPgoIDQ1

Apple、「ベーグル」の絵文字にクリームチーズを追加──要望を受け
外部リンク

ttp://jump.5ch.net/?http://www.itmedia.co.jp/news/articles/1810/16/news086.html

852

： [sage] 2018/10/16(火) 21:00:39.00

:+1MBTbsX

IEC646を使う事ももやめてUS-ASCIIに統一した方がいいよな。
それで問題が起きる時はフォントの方を変えて対処すればいい

853

： [sage] 2018/10/16(火) 22:29:11.24

:xkS5MTi4

絵文字はどんどん規格にない不文律が増えていくんだな

854

： [sage] 2018/10/16(火) 22:46:32.20

:YZqafHqA

誰がunicodeに絵文字顔文字なんかいれたんだ？

855

： [sage] 2018/10/18(木) 09:37:48.19

:9Pcdnt1S

>>854

Google Japan Blog: 絵文字のユニコード符号化: 符号化提案用のオープンソースデータ
外部リンク

ttp://jump.5ch.net/?https://japan.googleblog.com/2008/11/blog-post_27.html

856

： [sage] 2018/10/21(日) 02:11:42.72

:fBvnF/D1

つまり結局のところどうしたらええんじゃ？

857

： [] 2018/10/21(日) 11:20:10.64

:sjXodBVw

見

858

： [sage] 2018/10/21(日) 21:31:47.23

:8BH3p2hm

ttp://jump.5ch.net/?https://en.wikipedia.org/wiki/Template:Smiley
ここの絵文字のソースコードを見ると<abbr>要素を使ってマークアップしてるんだけど
こういうのって一般的なのかな。

859

： [sage] 2018/10/21(日) 23:19:14.44

:j+lXdzx1

Wikipediaはある種独特じゃね

860

： [sage] 2018/10/29(月) 01:00:18.66

:OPK1oA4w

ttp://jump.5ch.net/?https://s.codepen.io/aardrian/debug/ENJdjN
ここでは
☃
としてるね

861

： [] 2018/10/29(月) 11:18:13.71

:rTl7m6mf

☃

862

： [] 2018/10/29(月) 12:04:33.69

:oLCvh0eX

マルチバイト文字を2つのシングルバイト文字で囲いたい場合
マルチバイト文字の中にそのシングルバイト文字があった場合、囲えないんですけど
マルチバイト文字を理解しないで囲うにはどうしたらいいですか？

863

： [] 2018/10/29(月) 12:49:16.57

:VtmwN/uo

utf8

864

： [sage] 2018/10/29(月) 15:46:00.93

:AJZhbohO

>>862

仮にUTF-32で処理したところで、今は合成やらIVSやらZWJやら絵文字やらで
特殊ルール満載で境界が曖昧なので、理解しないで1文字切り出すのは無理

865

： [sage] 2018/10/29(月) 16:16:56.56

:oLCvh0eX

ありがとうございます
自己解決しました。

866

： [sage] 2018/10/30(火) 22:48:53.83

:sNif6dsM

Draft Emoji Candidates
外部リンク

ttp://jump.5ch.net/?http://www.unicode.org/emoji/future/emoji-candidates.html

何個目だよハート
そして色つきの丸と四角がいっぱい

867

： [sage] 2018/10/31(水) 00:23:40.01

:W1Oq41Ld

オイスターは動物じゃなくて食いもん枠なのか

868

： [sage] 2018/10/31(水) 23:32:52.14

:VU8NOm8y

U+2053のSWUNG DASHってどういうときに使うか分かる？
波ダッシュと同じ使い方でいいのかな。

869

： [sage] 2018/11/01(木) 00:15:41.30

:+UpfaFuk

ホゲエ～だと力が足りない時に使う

870

： [] 2018/11/01(木) 10:43:45.13

:z733lC2q

⁓
～
〜
～
~
~
￣
～
～
∼
～
≁
∻
〰
~
￣
~
￣
～

871

： [sage] 2018/11/01(木) 12:02:35.35

:rRwKTtG6

>>870

床に落ちてる縮れ毛みたいだね

872

： [] 2018/11/01(木) 12:10:10.60

:VLboL17t

gal undo

873

： [sage] 2018/11/01(木) 13:23:41.33

:EuhtjlAA

>>871

こんなきれいに並べんやろ

874

： [sage] 2018/11/04(日) 22:18:26.79

:V6s3/sLe

>>860

alia-label=属性は絵文字の音声読み上げが上手くできなかった時代の対処療法。
今はほとんどの（特に視覚障碍者が使うような）音声読み上げが絵文字に対応してるので
必要ないかと。role=属性をimgにするという案はいいね。

875

： [sage] 2018/11/05(月) 15:43:44.70

:TZRFRfjm

今でもASCII制御文字で使われている物はHT CR LFくらいかな？

876

： [] 2018/11/05(月) 17:16:04.95

:o5QGnfIr

C/C++なら今でも\aで音出るよ

877

： [sage] 2018/11/05(月) 20:56:08.29

:4CVibwX5

今のPCもマザボにスピーカー入ってるの？

878

： [sage] 2018/11/06(火) 02:07:29.32

:dakOghSY

NUL SO SI ESC SPACE DEL 辺りも使うかな

879

： [sage] 2018/11/06(火) 11:04:20.63

:FAqyZmup

RLOも現役ぽいなあ

880

： [] 2018/11/06(火) 11:35:39.71

:vyXuaWzf

881

： [] 2018/11/06(火) 11:46:12.83

:rqFrnjhJ

BSも利く

882

： [sage] 2018/11/06(火) 13:19:35.81

:e09+EfP6

^cはシグナルを送るキーとして使われてるだけで改ページの意味があるわけではないからなあ
とはいえ改ページとしてのFFがあるテキストファイルもたまにある

883

： [] 2018/11/06(火) 13:28:10.62

:qdniag2/

Win32APIのMessageBoxはテキストに0x03が含まれてるとゴニョゴニョ

884

： [sage] 2018/11/09(金) 01:31:09.73

:c1qAdcQz

？

885

： [sage] 2018/11/09(金) 19:51:09.78

:3ZHBVzZ5

Unicodeの概念そのものは好きだけど
太字の「>」とか要る？そういう太字にしたり斜体にしたりするのはワードプロセッサーや写植システムの役割だろう。

886

： [sage] 2018/11/09(金) 21:06:14.08

:romiKFBS

知らんけどもともとどっかにあったんじゃないの？
とりあえずなんでも拾っとくことこそUnicodeの概念とやらの本質じゃないの？

887

： [sage] 2018/11/10(土) 02:40:35.70

:1I6WGnS3

なんでも拾っておくってなら、CJKまとめるなんて暴挙はなかったろ

888

： [sage] 2018/11/10(土) 12:59:04.24

:RdMcj9Zd

別々の集合からならまとめても元に戻せるから矛盾しないぞ

889

： [sage] 2018/11/10(土) 13:35:27.91

:gF+s2COR

>>887

それは16ビットで収めるためのMSの暴挙

890

： [sage] 2018/11/10(土) 13:36:04.74

:6fDrSpR2

太字よりも、色付き絵文字に呆れた。

891

： [] 2018/11/10(土) 15:49:00.28

:gwVpzklH

絵文字排除するはずだったのに何のための文字コードだったのか

892

： [] 2018/11/10(土) 15:52:17.38

:mjExs0JA

むしろいちいちﾌｫﾝﾄなんか使わずに画像使えばいい

893

： [] 2018/11/10(土) 16:19:59.30

:gwVpzklH

害児のための外字

894

： [sage] 2018/11/12(月) 16:28:58.15

:sDbkVTfY

記号類にもUnihan Databaseみたいな典拠集積したやつを作っておくべきだったなとは思う。

895

： [sage] 2018/11/13(火) 03:51:59.47

:T2RztKBH

テスト
🐱‍👤🐱‍🏍🐱‍💻🐱‍🐉🐱‍👓🐱‍🚀

896

： [sage] 2018/11/14(水) 00:25:03.52

:7Ifnwzhb

test󾬄󾌰󾍇󾌵󾔣󾔥󾹄

897

： [sage] 2018/11/14(水) 15:22:06.98

:DziNZxCd

test123

898

： [] 2018/11/23(金) 10:18:33.14

:e4GZHgy/

ttps://pbs.twimg.com/media/DsbSo7oU4AAKJ-e.jpg

899

： [sage] 2018/11/23(金) 22:12:04.21

:8npogZAr

「画数の多い文字」として知られているけれども本当に実用されていた文字なのか誰も確認できず、
しかし「画数の多い文字の例」として使われているために少なくともそれ以後は実在していると考えるしかないという

900

： [sage] 2018/11/23(金) 23:52:57.64

:LJvBE/cy

>>899

じゃあ実用されていた漢字で一番画数が多いのはなんですか？

901

： [sage] 2018/11/24(土) 00:12:46.90

:GcFLRWmR

実用なら身も蓋もありませんが親鸞の「鸞」と、2chでもおなじみの「鬱」でしょうね

新聞で使う文字に限るなら「鑑」で、
本当の意味での常用漢字なら「襲う」と「驚く」でしょうね
本当に身近な字ですが無駄に画数多いよね！
子供の日記でも「～でおどろいた」と良く使われるフレーズなのにね！

902

： [sage] 2018/11/24(土) 00:16:41.62

:jHhCYnAM

ためになるなあ

903

： [sage] 2018/11/24(土) 09:56:10.66

:b7FMpfFJ

ttp://jump.5ch.net/?https://map.goo.ne.jp/place/22001814283/
浜松市に「たいと(雲雲雲龍龍龍)」という四川料理店があるが、
これで「実用化」されたことになるだろう。

904

： [] 2018/11/24(土) 13:17:41.92

:4kdGLnPd

學校
臺灣
國體
驛辯
やめたくなるわな

905

： [] 2018/11/24(土) 13:24:00.06

:4kdGLnPd

>>903

看板と幟で確認出来るようだ
肝心な部分が隠れてるけど
外部リンク

ttps://dotup.org/uploda/dotup.org1699600.jpg
他のアングルだと欝ってなかった

906

： [sage] 2018/11/24(土) 13:49:21.65

:rXljiVhx

複雑な文様・難解な表記ほど有難いと思ってるやつがいるうちは漢字は世にはばかり続けるだろう

907

： [] 2018/11/24(土) 14:28:12.34

:4kdGLnPd

明後日の方向からレスが来た

908

： [sage] 2018/11/24(土) 14:33:23.15

:nrZVZwkF

>>904

＞驛辯
辨・辧・瓣・辮・?　かもしれませんよ…それらが合わさって弁になったんです

909

： [sage] 2018/11/24(土) 22:16:10.34

:nC23MCFq

メールも8bit文字ををBase64などでエンコードせずにそのまま送れるのが標準になってほしいよ
普段使っているメールサーバーにtelnetを使ってEHLOではなく従来のHELOでログインして
ヘッダーにshift jisをエンコードせずに入れたメールを送ってみたが問題なく送れたから
SMTPUTF8対応を明言していなくても8bitを送れるメールサーバーは結構あるんだろうけど

910

： [sage] 2018/11/24(土) 22:31:27.28

:3CbvFbkZ

20年くらい前にfjで「8bit通らないMTAってまだどっかで稼働してるのかね？」って話をしてたような気がするが。

911

： [] 2018/11/24(土) 23:28:09.38

:or35NFsF

ならUTF-7使うしかない

912

： [sage] 2018/11/24(土) 23:36:50.36

:nC23MCFq

20年前でもほぼ8bitが通る状況だったならMUAの側も
8bit文字をエンコードせずに送る設定を用意してもよさそうだが
それができるMUAはあるんだろうか

凡例：

レス番

100 (赤) → 2つ以上レスが付いている
100 (紫) → 1つ以上レスが付いている

名前

名無しさん (青) → sage のレス
名無しさん (緑) → age のレス

ID

ID:xxxxxxx (赤) → 発言が3つ以上のID
ID:xxxxxxx (青) → 発言が2つ以上のID

このページは2ch勢いランキングが作成したアーカイブです。削除についてはこちら。