Ce document complète la documentation de référence des modules
Depuis la version 2.2 du serveur HTTP Apache, les modules
Le module
Le module
Etant donné que
Pour tirer parti efficacement de ce document, les bases de HTTP doivent vous être familières, et vous devez avoir lu les sections Mise en correspondance des URLs avec le système de fichiers et Négociation sur le contenu du guide de l'utilisateur.
Ceci entraîne que toutes autres actions qui se dérouleraient normalement
au cours du processus de traitement d'une requête -- par exemple un
traitement effectué par
Si l'URL ne se trouve pas dans le cache,
Si l'URL se trouve dans le cache, mais est arrivée à expiration,
le filtre est quand-même ajouté, mais
Lors de la mise en cache de contenu généré localement, le
positionnement de la directive
On
peut améliorer de manière spectaculaire le taux de
présence dans le cache. Ceci est du au fait que le nom d'hôte de l'hôte
virtuel qui sert le contenu constitue une partie de la clé de cache.
Avec On
,
les hôtes virtuels possédant plusieurs noms de serveur ou alias ne
généreront pas d'entités de cache différentes, et le contenu sera mis en
cache en faisant référence au nom d'hôte canonique.
Les documents mis en cache ne seront servis qu'en réponse à des requêtes de type URL, car la mise en cache est effectuée lors de la phase de traduction de l'URL en nom de fichier. En général, cela n'a que peu d'effet, à moins que vous n'utilisiez les Inclusions Côté Serveur (SSI);
Si vous utilisez les SSI, et voulez bénéficier de la vitesse de
service depuis le cache, vous devez utiliser des inclusions de type
virtual
.
La période d'expiration par défaut pour les entités du cache est
d'une heure; elle peut cependant être facilement modifiée à l'aide de
la directive
Si une réponse ne contient pas d'en-tête Expires
mais
inclut un en-tête Last-Modified
,
La période d'expiration des contenus locaux peut être ajustée finement
en utilisant le module
On peut aussi contrôler la période d'expiration maximale en utilisant
la directive
Lorsqu'un contenu est arrivé à expiration dans le cache et fait l'objet d'une nouvelle demande d'accès, plutôt que traiter directement la requête originale, httpd préfère utiliser une requête conditionnelle.
HTTP propose toute une panoplie d'en-têtes qui permettent à un client, ou au cache de distinguer les différentes versions d'un même contenu. Par exemple, si une ressource a été servie avec un en-tête "Etag:", il est possible de créer une requête conditionnelle contenant un en-tête "If-None-Match:". Si une ressource a été servie avec un en-tête "Last-Modified:", il est possible de créer une requête conditionnelle contenant un en-tête "If-Modified-Since:", etc....
Lorsqu'une telle requête conditionnelle est créée, la reponse diffère selon que le contenu satisfait ou non aux conditions. Si une requête est créée avec un en-tête "If-Modified-Since:", et le contenu n'a pas été modifié depuis le moment indiqué dans la requête, alors un laconique "304 Not Modified" est retourné.
Si le contenu a été modifié, il est servi comme si la requête n'avait pas été conditionnelle à l'origine.
Les bénéfices des requêtes conditionnelles pour ce qui concerne la mise en cache sont de deux sortes. Premièrement, quand une telle requête est envoyée au processus en arrière-plan, il sera aisé de déterminer si le contenu que devra servir le processus en arrière-plan correspond au contenu stocké dans le cache, sans être obligé de transmettre la totalité de la ressource.
Deuxièmement, les requêtes conditionnelles sont en général moins
coûteuses en ressources pour le processus en arrière-plan.
Pour ce qui est des fichiers
statiques, l'action type est un appel à stat()
ou un appel
système similaire, pour déterminer si la taille du fichier ou sa date de
modification ont changé. Ainsi, même si httpd met en cache le contenu
local, un contenu arrivé à expiration pourra être servi plus rapidement
depuis le cache s'il n'a pas été modifié, parce que la lecture depuis le
cache est plus rapide que la lecture depuis le processus en arrière-plan
(à comparer à la différence de vitesse entre la lecture depuis un cache en
mémoire avec
Comme mentionné plus haut, les deux styles de mise en
cache de httpd
fonctionnent différemment; la mise en cache de
La mise en cache de
En bref, tout contenu qui varie beaucoup avec le temps, ou en fonction de particularités de la requête qui ne sont pas couvertes par la négociation HTTP, ne doit pas être mis en cache.
Un contenu dynamique qui varie en fonction de l'adresse IP du demandeur, ou est modifié toutes les 5 minutes, ne devra en général pas être mis en cache.
Si par contre le contenu servi diffère en fonction de la valeur de divers en-têtes HTTP, il se peut que l'on puisse le mettre en cache intelligemment en utilisant un en-tête "Vary".
Si
Si par exemple, une réponse est reçue avec l'en-tête Vary suivant,
Utiliser
Comme le parcours de la hiérarchie d'un système de fichiers pour
examiner le contenu d'éventuels fichiers
.htaccess
serait une opération très coûteuse en ressources,
annulant partiellement de ce fait l'intérêt de la mise en cache
(accélérer le traitement des requêtes),
Si par exemple, votre configuration autorise l'accès à une ressource
en fonction de l'adresse IP, vous devez vous assurer que ce contenu n'est
pas mis en cache. Ceci est possible en utilisant la directive
Etant donné que les requêtes des utilisateurs finaux peuvent être servies depuis le cache, ce dernier est une cible potentielle pour ceux qui veulent défigurer un contenu ou interférer avec lui. Il est important de garder à l'esprit que l'utilisateur sous lequel tourne httpd doit toujours avoir l'accès en écriture dans le cache. Ceci est en contraste total avec la recommandation usuelle d'interdire à l'utilisateur sous lequel tourne Apache l'accès en écriture à tout contenu.
Si l'utilisateur sous lequel tourne Apache est compromis,
par exemple à cause d'une
faille de sécurité dans un processus CGI, il est possible que le cache
fasse l'objet d'une attaque. Il est relativement aisé d'insérer ou de
modifier une entité dans le cache en utilisant le module
Cela représente un risque relativement élévé par rapport aux autres
types d'attaques qu'il est possible de mener sous l'utilisateur apache.
Si vous utilisez
Si vous utilisez httpd comme serveur mandataire avec mise en cache, vous vous exposez aussi à un éventuel "Empoisonnement du cache" (Cache poisoning). L'empoisonnement du cache est un terme général pour désigner les attaques au cours desquelles l'attaquant fait en sorte que le serveur mandataire renvoie à un contenu incorrect (et souvent indésirable) suite à en provenance du serveur d'arrière-plan.
Par exemple, si les serveur DNS qu'utilise votre système où tourne httpd sont vulnérables à l'empoisonnement du cache des DNS, un attaquant pourra contrôler vers où httpd se connecte lorsqu'il demande un contenu depuis le serveur d'origine. Un autre exemple est constitué par les attaques ainsi nommées "Dissimulation de requêtes HTTP" (HTTP request-smuggling).
Ce document n'est pas le bon endroit pour une discussion approfondie à propos de la Dissimulation de requêtes HTTP (utilisez plutôt votre moteur de recherche favori); il est cependant important de savoir qu'il est possible d'élaborer une série de requêtes, et d'exploiter une vulnérabilité d'un serveur web d'origine de telle façon que l'attaquant puisse contrôler entièrement le contenu renvoyé par le mandataire.
Le fait d'ouvrir un fichier peut en lui-même introduire un délai, en particulier dans les systèmes de fichiers répartis sur le réseau. httpd peut s'affranchir de ce délai en maintenant un cache des descripteurs de fichiers ouverts pour ce qui concerne les fichiers souvent accédés. httpd propose actuellement une implémentation de mise en cache de la gestion de fichier.
La forme la plus élémentaire de mise en cache que
propose httpd est
fournie par le module
La directive
Si vous avez l'intention de mettre en cache un grand nombre de fichiers de cette manière, vous devez vous assurer que le nombre maximum de fichiers ouverts par votre système d'exploitation est correctement défini.
Bien que l'utilisation de la directive
Si le fichier est supprimé pendant l'exécution de httpd, ce dernier continuera à maintenir un descripteur de fichier ouvert et à servir le fichier dans l'état où il était quand httpd a démarré. Cela signifie aussi habituellement que malgré le fait que le fichier ait été supprimé, et ne soit plus accessible par le système de fichiers, l'espace libéré ne sera restitué qu'à l'arrêt de httpd quand le descripteur de fichier sera fermé.
Servir un contenu directement depuis la mémoire système est universellement reconnu comme la méthode la plus rapide. Lire des fichiers depuis un contrôleur de disque ou pire, depuis un réseau distant est plus lent de plusieurs ordres de grandeur. Les contrôleurs de disque réalisent en général des opérations mécaniques, et l'accès au réseau est limité par la bande passante dont vous disposez. Par contre, les temps d'accès à la mémoire sont de l'ordre de la nano-seconde.
Cependant la mémoire système n'est pas bon marché; à capacité égale, c'est de loin le type de stockage le plus coûteux et il est important de s'assurer qu'elle est utilisée efficacement. Le fait de mettre en cache des fichiers en mémoire diminue d'autant la quantité de mémoire système disponible. Comme nous le verrons plus loin, ce n'est pas un problème en soi dans le cas de la mise en cache par l'intermédiaire du système d'exploitation, mais si l'on utilise la mise en cache en mémoire propre à httpd, il faut prendre garde à ne pas allouer trop de mémoire au cache. Sinon le système sera contraint d'utiliser le swap, ce qui dégradera sensiblement les performances.
Dans la plupart des systèmes d'exploitation modernes, c'est le noyau qui gère directement la mise en cache en mémoire des données relatives aux fichiers. C'est une fonctionnalité puissante, et les systèmes d'exploitation s'en acquittent fort bien pour la plus grande partie. Considérons par exemple, dans le cas de Linux, la différence entre le temps nécessaire à la première lecture d'un fichier et le temps nécessaire à sa deuxième lecture;
colm@coroebus:~$ time cat testfile > /dev/null real 0m0.065s user 0m0.000s sys 0m0.001s colm@coroebus:~$ time cat testfile > /dev/null real 0m0.003s user 0m0.003s sys 0m0.000s
Même pour ce petit fichier, il y a une grande différence entre les temps nécessaires pour lire le fichier. Ceci est du au fait que le noyau a mis en cache le contenu du fichier en mémoire.
Du fait de toujours pouvoir disposer de mémoire système, vous pouvez être assuré qu'il y aura de plus en plus de contenus de fichiers stockés dans ce cache. Ceci peut s'avérer une méthode de mise en cache en mémoire très efficace, et ne nécessite aucune configuration supplémentaire de httpd.
De plus, comme le système d'exploitation sait si des fichiers ont été supprimés ou modifiés, il peut effacer automatiquement des contenus de fichiers du cache lorsque cela s'avère nécessaire. Ceci constitue un gros avantage par rapport à la mise en cache en mémoire de httpd qui n'a aucune possibilité de savoir si un fichier a été modifié.
En dépit des performances et des avantages de la mise en cache automatique par le système d'exploitation, la mise en cache en mémoire peut être effectuée plus efficacement par httpd dans certaines circonstances.
La directive
Comme dans le cas de la directive
La directive
Le module
Typiquement, le module sera configuré comme suit :
Il est important de savoir que, les fichiers mis en cache étant stockés localement, la mise en cache par l'intermédiaire du système d'exploitation sera en général aussi appliquée à leurs accès. Si bien que même si les fichiers sont stockés sur disque, s'il font l'objet d'accès fréquents, il est probable que le système d'exploitation s'appliquera à ce qu'ils soient servis à partir de la mémoire.
Pour stocker des entités dans le cache,
le module
Chaque position de l'empreinte peut contenir un caractère
choisi parmi 64 caractères différents, il y a donc
64^22 possibilités pour une empreinte. Par exemple, une URL peut posséder
l'empreinte xyTGxSMO2b68mBCykqkp1w
. Cette empreinte est
utilisée pour préfixer les noms de fichiers spécifiques à cette URL à
l'intérieur du cache; cependant, elle est tout d'abord placée dans les
répertoires du cache selon les directives
La directive
/var/cache/apache/x/y/TGxSMO2b68mBCykqkp1w
.
Cette technique a pour but principal de réduire le nombre de
sous-répertoires ou de fichiers contenus dans un répertoire particulier,
car le fonctionnement de la plupart des systèmes de fichiers est ralenti
quand ce nombre augmente. Avec la valeur "1" pour la directive
Le paramétrage de la directive
Chaque URL nécessite au moins deux fichiers dans le cache. Ce sont en général un fichier ".header", qui contient des meta-informations à propos de l'URL, comme la date de son arrivée à expiration, et un fichier ".data" qui est la copie exacte du contenu à servir.
Dans le cas d'un contenu négocié via l'en-tête "Vary", un répertoire ".vary" sera créé pour l'URL en question. Ce répertoire contiendra de multiples fichiers ".data" correspondant aux différents contenus négociés.
Bien que le module
Par contre l'utilitaire htcacheclean fourni avec httpd vous permet, comme son nom l'indique, de nettoyer le cache périodiquement. Déterminer la fréquence à laquelle lancer htcacheclean et la taille souhaitée pour le cache est une tâche relativement complexe et il vous faudra de nombreux essais et erreurs pour arriver à sélectionner des valeurs optimales.
htcacheclean opère selon deux modes. Il peut s'exécuter comme démon résident, ou être lancé périodiquement par cron. htcacheclean peut mettre une heure ou plus pour traiter de très grands caches (plusieurs dizaines de Gigaoctets) et si vous l'exécutez à partir de cron, il vous est conseillé de déterminer la durée typique d'un traitement, afin d'éviter d'exécuter plusieurs instances à la fois.
Figure 1: Croissance
typique du cache / séquence de nettoyage.
Comme