他ネットからの転載情報

HTMLと文字コ−ドの問題


目 次

970828. SM [WNN:9187] WNN home page
970828. TK [WNN:9188] Re: WNN home page
970829. MZ [WNN:9191] Re: WNN home page
970829. SM [WNN:9192] Re: WNN home page
970829. TK [WNN:9198] Re: WNN home page
970903. MZ [WNN:9201] Re: WNN home page


Date: Thu, 28 Aug 1997 20:38:49 +0900
Subject: [WNN:9187] WNN home page 

SMです。

どうもWNNのページが化けて表示されます。

http://www.center.osaka-u.ac.jp/people/wnn/

みなさんはどうですか?


Subject: [WNN:9188] Re: WNN home page Date: Thu, 28 Aug 1997 21:10:42 +0900 SMさん: > どうもWNNのページが化けて表示されます。 > http://www.center.osaka-u.ac.jp/people/wnn/ > みなさんはどうですか? 部分的に文字化けする(例えば「It's NEW! WNNのページはここへ引っ越しま した」の後ろ)ということでしょうか? 手元のブラウザでは、lynx2.7.1では問題なし、UNIX版Netscape 3.0xでは上記 のような文字化けがありました。 で、HTMLソースを見ると、文字コードが今ひとつ美しくない(←変な表現)よ うで、ESC ( B より前に改行が来たりしてるのがよくないようです。 Mule等で開いた後セーブして、文字コードを綺麗にするとうまくいくみたいで す。 >webページ担当の方 #あと、 <META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=iso-2022-jp"> とエンコードを指定すると幸せになれるブラウザもありそうですが、 iso-2022-jpの場合は(誤認がほとんどないので)不要かも知れません。 #SJISで書いてあるのに"charset=iso-2022-jp"と書かれていると確実に不幸 になれます。そういうページもごくまれにあり。(;_;)


Date: Fri, 29 Aug 1997 07:44:52 +0900 (JST) Subject: [WNN:9191] Re: WNN home page MZです。 At 9:10 PM 97.8.28 +0900, TK wrote: >SMさん: >> どうもWNNのページが化けて表示されます。 私も文字化けの件、気がついていましたが、自分が悪いのだ (要するに、どこがおかしいか、わからなかった)と思っていました。 ご指摘、どうもありがとうございました。 > >で、HTMLソースを見ると、文字コードが今ひとつ美しくない(←変な表現)よ >うで、ESC ( B より前に改行が来たりしてるのがよくないようです。 いえいえ、なかなか素敵な表現で、感動しました(難しい外国語がすらすら読める 人を見ているようで)。 > <META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=iso-2022-jp"> > とエンコードを指定すると幸せになれるブラウザもありそうですが、 > iso-2022-jpの場合は(誤認がほとんどないので)不要かも知れません。 >#SJISで書いてあるのに"charset=iso-2022-jp"と書かれていると確実に不幸 > になれます。そういうページもごくまれにあり。(;_;) えっと、このあたりですが、初心者としてちょっと確認させてください。 -1)文字コードとは、"charset=iso-2022-jp"とか、JIS, SJIS, EUC 等というののことで、 文字を、計算機が扱う時の表現のためのビットパターンである。それを16進表現(4ビット づつ置き換えた表現で、0,1,2,3,4,5,6,7,8,9,A,B,C,D,E,Fを「数字」として使う) にしたものが、ワープロなどで特殊文字を出す時によく使われる、あの変な記号である。 (例えば、「あ」=82A0、とか、「1」=8250、「堯」=EA9Fとか)。 (それぞれ元は「1」=1000,0010,0101,0000、「堯」=1110,1010,1001,1111等) (その表現が違うと、文字コードが違う、というわけである。上記の例はSIJSの場合)。 0)普通のパソコンの普通のワープロで、html文を書いて、そのまま保存すると、 文字コードの間にもワープロ特有の「変な文字」がいろいろ入っているので、 そのままではhtml文には使えない。 1)この問題を回避するために普通どうするかというと、書いたものを保存する時に、 「テキストで保存する」というようにしてから、そのファイルをftpをすればいい。 この時の文字コードは(普通のパソコンの普通のワープロで「テキスト」で保存ならば) SJIS(シフトJIS という、パソコン用の文字コード)になっている。 3)最近の多くのブラウザーでは、文字の種別を、ブラウザー自身で自動識別している ので、上記の2)以外の心配をする必要は、ない。 しかし、本来は(?標準では?)、JISコード(iso-2022-jpという国際名)にするの が正しい。(その理由は、インターネットで流通しているのが=通信の途中では、JIS コードであるから)。 4)従って、html文の最初(1行目の場所)に、 > < とエンコードを指定すると幸せになれるブラウザもありそうですが、 > iso-2022-jpの場合は(誤認がほとんどないので)不要かも知れません。 5)しかし、この4)のような(文字コードの)型宣言の文と、実際に使われている 文字コードとが、以下のように矛盾している場合、つまり、本文の文字が >#SJISで書いてあるのに"charset=iso-2022-jp"と書かれていると確実に不幸 > になれます。そういうページもごくまれにあり。(;_;) ということになる、というわけです。 6)つまり、(文字コードの)型宣言と、実際に使われている文字コードとが、矛盾している 場合、ブラウザーがどういう動作をするか(例えば、使われている文字コードを無視して 型宣言が優先されるのか、あるいは、型宣言を無視して実際の文字コードが優先させるのか)、 ということは、(国際的には、実は何も規定がないので)、保証されない。従ってそういう場合、 ひじょうに不幸な「表示」になる場合(そういうブランザー)が多いであろう。 ......というようなことで、いいですか?


Date: Fri, 29 Aug 1997 12:19:48 +0900 Subject: [WNN:9192] Re: WNN home page SMです。 MMさんの以下の記事で: >> こんにちは、MRです。 >> >> At 20:38 +0900 1997.08.28, SM wrote: >> > SMです。 >> > >> > どうもWNNのページが化けて表示されます。 >> 問題ないようですが、以下の部分(「引っ越しました。」の右横)に文 >> 字化けが見られました。 >> >> WNNのページはここへ引っ越しました。 0JA0$N%Z!<%8$OB8:_$7$^$;$s$N$G!" $* >                      MR > >私もMRさんと同様上記以外はまともです。Mac使用です。MMから。 English version is HERE.以下は以下のように表示されます。(IE3.02でソー ス表示)画像のところ一部が、文字になっているようです。 English version is <A HREF="./English/">HERE.</A> <P> 1995年11月3日以来、このページを訪問されたのは、あなたでu刋タ蕊庸ム卉就蔗痕 霊莱M辣鼈鈬ャ闥韋ュ赱鈬ュ竍薛砠遲鉋茘竢殊ス跚鉉女銕蜆謠T◇遡埆ル地嬶堙 辨t墅孕蘗処次L鮫]u凾セ人目です。u刋タ屡辨喇敕輯処uコ伐症・〓療廖鹿伐処uコ霈uユ 領のページはここへ引っ越しました。uョ柄阿離據璽犬和減澆靴泙擦鵑里如∴お手数で すがBookmarkやリンクの変更をお願いいたします。u刋タ鹿霈u次Luコ通処篠埔蕊庸ム 卉就苒繞遶矚跛裹◇遡埆☆だ・"> <a href="event/wnn5.html"><b>NGO/NPOのためのインターネット情報活用セミナー( 第5回)</b></a> プログラム決定しました。u〓DT><IMG SRC="green-ball.gif" ALT="・"> <a href="rescue.html"> <B>倒れている人を見つけたら</B></a> 〜応急処置法についてu〓DT><IMG SRC="green-ball.gif" ALT="・"> <A HREF="report/wnn-annurep-mar96.html"> <B>WNN 95年度活動報告</B></A> <DT><IMG SRC="green-ball.gif" ALT="・"> <A HREF="report/960727.html"> <B>第4回 WNN インターネットセミナー報告></B></A> </DL> --> <HR> <H2>イベント</H2> <DL> <DT><IMG SRC="ball-blue.gif" ALT="・"> <a href="osaka-y/11ndai1.htm"><b>第11期関西NGO大学</b></a> (9月20日〜) <DD>主催:関西NGO協議会u刋タ篠埔蕊庸ム卉就矚跛よ絎芍罌ソ猛就・"> <a href="event/chikyukankyo.html"><b>地球環境と気候温暖化を考えるつどu「yタ 鹿眈鹿畩ヲ〓だ月18日) <DD>主催:大阪NPOセンター・ヤマギシズム地球村実行委員会u刋タ鹿通処uコ蜊〓齟秉 ∝蜀癜鉅紫裹◇瘡サ☆だ!" width=32 height=32> ご注意:上記イベントについてのお問い合わせは、それぞれの主催者にお願いu「靴泙 后〓u刋タ屡仮徇吏だの仲間たち</H2>


Subject: [WNN:9193] Re: WNN home page Date: Fri, 29 Aug 1997 13:41:37 +0900


Subject: [WNN:9198] Re: WNN home page Date: Mon, 01 Sep 1997 13:10:50 +0900 TKです。 #MLの阪大外への配送は正常化したみたいですね。金曜から不調でしたが…。 文字コードの話です。 ちょっと長いですが、HTML書くのには割とお役に立つ情報かも…。 % % % MZさん > えっと、このあたりですが、初心者としてちょっと確認させてください。 > > -1)文字コードとは、"charset=iso-2022-jp"とか、JIS, SJIS, EUC 等とい > うののことで、文字を、計算機が扱う時の表現のためのビットパターンであ > る。それを16進表現(4ビットづつ置き換えた表現で、0,1,2,3,4,5,6,7, > 8,9,A,B,C,D,E,Fを「数字」として使う)にしたものが、ワープロなどで特 > 殊文字を出す時によく使われる、あの変な記号である。 > (例えば、「あ」=82A0、とか、「1」=8250、「堯」=EA9Fとか)。 > (それぞれ元は「1」=1000,0010,0101,0000、「堯」=1110,1010,1001,1111等) > (その表現が違うと、文字コードが違う、というわけである。上記の例は > SIJSの場合)。 そうです。で、日本語文字のコード化(各文字に対する数字の割当て)とし て、ISO-2022-JP(JUNETコード), いわゆるShift_JIS(MS漢字コード), EUC-JPの3つが多く使われています。 > 0)普通のパソコンの普通のワープロで、html文を書いて、そのまま保存す > ると、文字コードの間にもワープロ特有の「変な文字」がいろいろ入ってい > るので、そのままではhtml文には使えない。 ワープロでファイルに保存すると、普通、文字フォントの種類や大きさなど 文章以外の要素も記録されたファイルになるので、HTMLファイルにするには 不適、ということですね。 > 1)この問題を回避するために普通どうするかというと、書いたものを保存 > する時に、「テキストで保存する」というようにしてから、そのファイルを > ftpをすればいい。 > この時の文字コードは(普通のパソコンの普通のワープロで「テキスト」で > 保存ならば)SJIS(シフトJIS という、パソコン用の文字コード)になっ > ている。 > > 3)最近の多くのブラウザーでは、文字の種別を、ブラウザー自身で自動識 > 別しているので、上記の2)以外の心配をする必要は、ない。 > しかし、本来は(?標準では?)、JISコード(iso-2022-jpという国際名) > にするのが正しい。(その理由は、インターネットで流通しているのが=通 > 信の途中では、JISコードであるから)。 #「JISコード」という名前は表す内容が曖昧なことがあるので、ISO-2022-JP とかJUNETコードとか言うほうがいいかも知れません。 メールやネットワークニュースは、歴史的事情で、SJISやEUCなどのコード を使った場合正しく配送される保証がありません(と言うか、文字化けする と思ったほうがいい)。 ですが、WWWの場合はそういう制約はありません。 #「通信の途中では、JISコード」という部分は誤りです。書いてあるコード のまま転送されます。 WWWコンテンツでISO-2022-JPが奨められるのは、以下のような理由からだと 思っています。 ・多国語環境に適している。つまり、中国語や韓国語等の文字コードと区別 が付く。例えばEUC-JPは韓国語EUC(EUC-KR)と文字コードだけでは区別 できない(何らかのエンコード指定が必要)。 ・SJISとEUCの自動判別は失敗することもあるが、ISO-2022-JPの判別はほと んど失敗しない。 > 4)従って、html文の最初(1行目の場所)に、 > > <META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=iso-2022-jp"> > > とエンコードを指定すると幸せになれるブラウザもありそうですが、 > > iso-2022-jpの場合は(誤認がほとんどないので)不要かも知れません。 #↑これはもちろん、本文がISO-2022-JPを使って書かれている場合です。 上記のとおり、ISO-2022-JPの場合は誤認がないので実用上の効果はあまり ないと思います。 SJISまたはEUCで本文を書いてある場合は、それぞれ <META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=Shift_JIS"> <META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=EUC-JP"> と書くのがよいでしょう。 特にNetscapeのブラウザは代々、EUC-JPのページが判別に失敗しやすく出来 てるので<Yahoo Japanのページがよく文字化けしませんか?>、EUC-JPのペー ジにはこれを書いておくと効果があります。 #書く場所は<HEAD>〜</HEAD>の中です。 #何にせよ、文字コードの自動判別は本質的に不完全なものですので、文字コー ドはコンテンツ作成者が明示すべきという意見に僕は賛成します。 ただし、Netscapeの場合はVersion 3以上でないと認識しません(ver. 2で もx-euc-jpとか書けば認識しますが…)。MS Internet Explorerは今のとこ ろこの記法を認識しないみたいです。:-( > 5)しかし、この4)のような(文字コードの)型宣言の文と、実際に使わ > れている文字コードとが、以下のように矛盾している場合、つまり、本文の > 文字が > >#SJISで書いてあるのに"charset=iso-2022-jp"と書かれていると確実に不幸 > > になれます。そういうページもごくまれにあり。(;_;) > ということになる、というわけです。 > > 6)つまり、(文字コードの)型宣言と、実際に使われている文字コードと > が、矛盾している場合、ブラウザーがどういう動作をするか(例えば、使わ > れている文字コードを無視して型宣言が優先されるのか、あるいは、型宣言 > を無視して実際の文字コードが優先させるのか)、ということは、(国際的 > には、実は何も規定がないので)、保証されない。従ってそういう場合、 > ひじょうに不幸な「表示」になる場合(そういうブランザー)が多いであろう。 少なくとも「ブラウザは文字コードの自動判別をしなければいけない」とい う規定はどこにもないはずですし、エンコード指定がされていれば(結果が どうなろうと)それに従うのは理にかなった動作だと思います。 #で、UNIX版Netscape 3.0の場合はHTML中のエンコード指定に従って表示する みたいで、ブラウザオプションのDocument Encodingを切り替えても効果が なく(HTML中の指定を優先する)、このNetscapeではどうやってもそのペー ジを読むことはできませんでした。


Date: Wed, 3 Sep 1997 07:03:35 +0900 (JST) Subject: [WNN:9201] Re: WNN home page TKさん、MZです。  丁寧な説明を、ありがとうございました。 At 1:10 PM 97.9.1 +0900, TK wrote: >文字コードの話です。 >ちょっと長いですが、HTML書くのには割とお役に立つ情報かも…。 そうですね。先日も、AMDA国際情報センターのABさんから、HTMLを 書いたあとの(WEB上での)文字化けの質問がありましたが、以下の説明 がある程度理解できていると、対応方法も、思いつくかもしれません。 > WWWコンテンツでISO-2022-JPが奨められるのは、以下のような理由からだと > 思っています。 > ・多国語環境に適している。つまり、中国語や韓国語等の文字コードと区別 > が付く。例えばEUC-JPは韓国語EUC(EUC-KR)と文字コードだけでは区別 > できない(何らかのエンコード指定が必要)。 > ・SJISとEUCの自動判別は失敗することもあるが、ISO-2022-JPの判別はほと > んど失敗しない。 こういう理由がかいてあると、私にもわかります。 また: > 特にNetscapeのブラウザは代々、EUC-JPのページが判別に失敗しやすく出来 > てるので(Yahoo Japanのページがよく文字化けしませんか?)、EUC-JPのペー > ジにはこれを書いておくと効果があります。 とか、あるいは: >#何にせよ、文字コードの自動判別は本質的に不完全なものですので、文字コー > ドはコンテンツ作成者が明示すべきという意見に僕は賛成します。 > > ただし、Netscapeの場合はVersion 3以上でないと認識しません(ver. 2で > もx-euc-jpとか書けば認識しますが…)。MS Internet Explorerは今のとこ > ろこの記法を認識しないみたいです。:-( というあたりも、越智先生がされているように、WEB上にtipsとか「記事」として まとめておくと、有用なのでしょうね。私もそのうち、まとめようと思いつつ、 なかなか、出来ていません。>自分。 > 少なくとも「ブラウザは文字コードの自動判別をしなければいけない」とい > う規定はどこにもないはずですし、エンコード指定がされていれば(結果が > どうなろうと)それに従うのは理にかなった動作だと思います。 納得できます。^^;; >#で、UNIX版Netscape 3.0の場合はHTML中のエンコード指定に従って表示する > みたいで、ブラウザオプションのDocument Encodingを切り替えても効果が > なく(HTML中の指定を優先する)、このNetscapeではどうやってもそのペー > ジを読むことはできませんでした。 なるほど、よくわかりました。 #ABさん、おわかりになりましたら、参考にしてください。^^

■救急・災害医療ホ−ムペ−ジ 全国救急医療関係者のページ 他ネットからの情報