summaryrefslogtreecommitdiffstats
path: root/docs/manual/mod/mod_unique_id.xml.ja
blob: 9fee392749845f7a998bd72a2122ff874667ce67 (plain)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
<?xml version="1.0" encoding="UTF-8" ?>
<!DOCTYPE modulesynopsis SYSTEM "../style/modulesynopsis.dtd">
<?xml-stylesheet type="text/xsl" href="../style/manual.ja.xsl"?>
<!-- English Revision: 420990 -->

<!--
 Licensed to the Apache Software Foundation (ASF) under one or more
 contributor license agreements.  See the NOTICE file distributed with
 this work for additional information regarding copyright ownership.
 The ASF licenses this file to You under the Apache License, Version 2.0
 (the "License"); you may not use this file except in compliance with
 the License.  You may obtain a copy of the License at

     http://www.apache.org/licenses/LICENSE-2.0

 Unless required by applicable law or agreed to in writing, software
 distributed under the License is distributed on an "AS IS" BASIS,
 WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 See the License for the specific language governing permissions and
 limitations under the License.
-->

<modulesynopsis metafile="mod_unique_id.xml.meta">

<name>mod_unique_id</name>
<description>それぞれのリクエストに対する一意な識別子の入った環境変数を
提供する</description>
<status>Extension</status>
<sourcefile>mod_unique_id.c</sourcefile>
<identifier>unique_id_module</identifier>

<summary>

    <p>このモジュールは非常に制限された条件下で、
    それぞれのリクエストに「すべて」のリクエストに対して
    一意に決まることが保証されている魔法のトークンを提供します。
    この一意な識別子は、適切に設定されたクラスタでは複数の
    マシンの間でさえも一意になります。それぞれのリクエストに対して環境変数
    <code>UNIQUE_ID</code> に識別子が設定されます。
    一意な識別子が便利な理由はいろいろありますが、
    このドキュメントの目的からは外れるため、ここでは説明しません。</p>
</summary>

<section id="theory">
    <title>理論</title>

    <p>まずはじめに、Apache サーバが Unix
    マシンでどのように動作をするかを簡単に説明します。
    この機能は現時点では Windows NT ではサポートされていません。
    Unix マシンでは Apache はいくつかの子プロセスを作成し、
    その子プロセスが一つずつリクエストを処理します。それぞれの子プロセスは、
    生存期間中に複数のリクエストを扱うことができます。
    この議論では子プロセス間では一切データを共有しないことにします。
    以後、この子プロセスのことを <dfn>httpd プロセス</dfn> と呼びます。</p>

    <p>あなたのウェブサイトにはあなたが管理するいくつかのマシンがあるとします。
    それらをまとめてクラスタと呼ぶことにします。それぞれのマシンは複数の
    Apache を実行することもできます。
    これらすべてをまとめたものが「宇宙」であると考えられます。
    いくつかの仮定の下で、クラスタのマシン間がたくさん通信をすることなく、
    この宇宙の中でそれぞれのリクエストに一意な識別子を生成できることを示します。
    </p>

    <p>クラスタにあるマシンは以下の要求を見たさなければなりません。
    (マシンが一つだけだとしても、NTP で時計を合わせる方が良いです。)</p>

    <ul>
      <li>NTP や他のネットワーク上で時間を合わせるプロトコルによって
      各マシンの時間の同期が取られていること。</li>

      <li>モジュールがホスト名を引いて違う IP
      アドレスを受け取ることができるように、
      クラスタのそれぞれのマシンのホスト名が違うこと。</li>
    </ul>

    <p>オペレーティングシステムにおいては、pid (プロセス ID) が
    32 ビットの範囲内であることを仮定します。オペレーティングシステムの
    pid が 32 ビットを超える場合は、簡単な修正ではありますが、
    コードを変更する必要があります。</p>

    <p>これらの仮定が満たされていると、ある時点において、
    クラスタ内のどのマシンのどの httpd
    プロセスでも、一意に同定することができます。これはマシンの IP
    アドレスと httpd プロセスの pid で十分に行なうことができます。
    ですから、リクエストに一意な識別子を生成するためには、
    時刻を区別する必要があるだけです。</p>

    <p>時刻を区別するために、Unix のタイムスタンプ (UTC の 1970 年
    1 月 1 日からの秒数) と、16 ビットのカウンタを使います。
    タイムスタンプの粒度は一秒ですので、一秒間の 65536
    までの値を表現するためにカウンタを使用します。四つの値
    <em>( ip_addr, pid, time_stamp, counter )</em> で各 httpd
    プロセスで一秒の間に 65536 リクエストを数えあげることができます。
    時間が経つと pid が再利用されるという問題がありますが、
    この問題を解決するためにカウンタが使用されます。</p>

    <p>httpd の子プロセスが作成されると、カウンタは
    (その時点のマイクロ秒 ÷ 10) modulo 65536 で初期化されます
    (この式はいくつかのシステムにある、マイクロ秒の
    タイマの下位ビットが異なるという問題を解決するために選ばれました)。
    一意な識別子が生成されたとき、使用されるタイムスタンプは
    ウェブサーバにリクエストが到着した時刻になります。
    カウンタは識別子が生成されるたびに増加します 
    (あふれた場合は 0 に戻ります)。</p>

    <p>カーネルはプロセスをフォークすると、それぞれのプロセスのために
    pid を生成します。pid は繰り返されることが許可されています
    (pid の値は多くの Unix では 16 ビットですが、新しいシステムでは
    32 ビットに拡張されています)。
    ですから、ある程度の時間が経過すると同じ pid が再び使用されます。
    しかし、一秒内に再使用されなければ、
    四つの値の一意性は保たれます。つまり、我々はシステムが一秒間
    に 65536 個のプロセスを起動しないと仮定しています (いくつかの Unix
    では 32768 プロセスですが、それですらほとんどあり得ないでしょう)。</p>

    <p>何らかの理由で、同じ時刻が繰り返されたとしましょう。
    つまり、システムの時計が狂っていて、もう一度過去の時刻になってしまった
    (もしくは進みすぎていたときに、
    正しい時刻に戻したために再び将来の時刻になってしまった) とします。
    この場合、pid とタイムスタンプが再使用されることが簡単に示されます。
    カウンタ初期化用の関数は、この問題の回避を手助けしようと選択されています。
    本当はカウンタの初期化をするためにランダムな数字を使いたいのですが、
    ほとんどのシステムでは簡単に使用できる数は無いことに注意してください
    (<em>すなわち</em>、rand ()は使えません。rand () には seed
    を与える必要があり、seed には時刻を使えません。一秒単位では、
    その時刻はすでに繰り返されているからです)。
    これは、完璧な対策ではありません。</p>

    <p>この対策はどのくらい効果があるでしょうか?
    ここでは、マシン群の中の一つは最大で一秒に 500
    リクエストを扱うと仮定します (これを書いている時点では妥当な上限です。
    通常システムがすることは静的なファイルを取りだすだけではありませんから)。
    それを行なうために、そのマシンは並行して来るクライアントの数に
    応じた数の子プロセスを要求します。
    しかしながら、悲観的に考えて、一つの子プロセスが一秒に 500
    リクエストを扱えるとします。そうすると、(一秒の精度において)
    時刻が同じ時を繰り返すと、この子プロセスがカウンタの値を再び使い、
    一意性が壊れる可能性が 1.5% あります。
    これは非常に悲観的な例で、実世界の値では、ほとんど起こりそうにありません。
    それでもこれが起こる可能性のあるようなシステムなら、
    (プログラムコードを編集して) 
    カウンタを 32 ビットにするのが良いでしょう。
    </p>

    <p>サマータイムにより時計が「戻される」ことを気にしている人が
    いるかもしれません。ここで使用される時間は UTC であり、
    それは「常に」進むのでここでは問題になりません。x86 上の Unix
    はこの条件を満たすために適切な設定が必要かもしれないことに
    注意してください。マザーボードの時計は UTC になっていて、
    他の時間はそこから適切に補正されることを仮定できるように
    設定されなければなりません。そのような場合でさえ、NTP
    を使っているならばリブート後にすぐ正しい UTC の時間になるでしょう。</p>

    <p><code>UNIQUE_ID</code> 環境変数は 112 ビット (32 ビット IP
    アドレス、32 ビット pid, 32 ビットタイムスタンプ、16
    ビットカウンタの四つの組) をアルファベット <code>[A-Za-z0-9@-]</code>
    を用いて MIME の base64 符号化と同様の方法により符号化し、19
    の文字を生成することにより作成されます。MIME の base64
    のアルファベットは実際は <code>[A-Za-z0-9+/]</code> ですが、
    <code>+</code> と <code>/</code> とは URL
    では特別な符号化が必要なので、あまり望ましくありません。
    全ての値はネットワークバイトオーダで符号化されますので、
    符号は違ったバイトオーダのアーキテクチャ間で比較可能です。
    実際の符号化の順番は: タイムスタンプ、IP アドレス、pid,
    カウンタです。この順には目的がありますが、
    アプリケーションは符号を解析するべきではないことを強調しておきます。
    アプリケーションは符号化された <code>UNIQUE_ID</code>
    全体を透過的なトークンとして扱うべきです。
    <code>UNIQUE_ID</code> は他の <code>UNIQUE_ID</code>
    との等価性を調べるためだけにのみ使用できます。</p>

    <p>この順番は将来、既存の <code>UNIQUE_ID</code>
    のデータベースとの衝突を心配することなく符号を変更することが
    可能になるように選択しています。
    新しい符号はタイムスタンプを最初の要素として残すのが望ましく、
    それ以外は同じアルファベットとビット長を使うことができます。
    タイムスタンプは本質的に増加系列ですので、
    クラスタの全てのマシンがリクエストとサーバ機能を停止して、
    古い符号化方式を使用するのをやめる<em>フラグ秒</em>があれば十分です。
    その後は、リクエストを再開し、
    新しい符号を発行することができるようになります。</p>

    <p>我々はこれが、
    この問題に対する比較的移植性の高い解決法だと考えています。
    Windows NT のようなマルチスレッドのシステムに拡張することができますし、
    将来必要になればさらに増やすこともできます。
    ID は必要に応じて長くすることができますので、生成された ID
    は実質上、無限に有効です。また、クラスタのマシン間の通信も事実上必要なく
    (NTP による同期のみが必要で、これはオーバヘッドはあまりありません)、httpd
    プロセス間の通信も必要ありません (通信はカーネルにより割り当てられた
    pid の値により暗黙の内に行なわています)。
    さらに限られた状況下では、ID はさらに短くすることができますが、
    より多くの情報を仮定する必要がでてきます (例えば、32 ビット
    IP アドレスはどのサイトにおいても過剰な情報ですが、
    それの代わりになる移植性のあるものはありません)。</p>
</section>


</modulesynopsis>