Les coulisses n°3

Bienvenue dans ce troisième épisode des coulisses, tout ce qui se passe derrière sans que vous en soyez vraiment au courant. Cet épisode est très en retard, certains bouts datent de Décembre littéralement, mais voici quelques petites choses que j'aimerai partager.

Redécouvrons le satellite

Non je ne parlerai pas de Melon Musk ici, mais bien des réseaux satellitaires historiques. Je souhaitais justement vous parler de ce qu'il y a au sol pour les piloter, et c'est pour ça que je vous enjoint à regarder cet article du blog d'Olivier Ezratty de 2014 parlant des salles machines et supervision de Globecast, un des géant de la communication par satellite. Il est très rare de pouvoir voir d'aussi près ce qu'il se passait, il y a plus de dix ans déjà. On y découvre des coulisses impressionnantes et des choses rarement vues ailleurs, comme un système de câblage de fibres circulaire. C'est à la fois impressionnant et une première pour moi, les liens étant souvent montés sur des panels horizontaux, mais on comprends vite l’intérêt de ce cercle: d'assurer que les rayon de courbures soient respectés et d'éviter de créer trop de noeuds entre chaque fibre. Il y a probablement d'autres avantages, mais n'en ayant jamais personnellement utilisé, je ne saurais vous en raconter. Il n’empêche que les satellites sont un moyen efficace en cas de catastrophe de contacter des personnes. C'est d'ailleurs ce qui a notamment été utilisé pour Mayotte mais pas que.

La catastrophe des infrastructures à Mayotte

Vous n'êtes pas sans savoir qu'une grave catastrophe à eu lieu à Mayotte. En plus des milliers de morts, cette dernière a détruit énormément d'infrastructures vitales, électricité, eau, mais aussi de communications. Qu'est ce qui se passe alors dans ces cas là?

Sur l'infrastructure fixe, cette dernière a été extrêmement détruite. Fourreaux cassés, cables arrachés, rien n'a été épargné. Cependant, quand il n'y a pas d’électricité, il est difficile d'avoir une estimation des clients coupés. J'en avais parlé lors du précédent épisode des coulisses. Mais même si la technologie GPON utilisée par les fibres FTTH permet d'avoir ce qu'on appelle un "dying gasp" lors d'une coupure électrique, rien ne pouvais garantir que les personnes impactées par une coupure électrique, et pour laquelle un dying gasp a été émis, que leur lien fibre était toujours aligné et en continuité.

On ne peux donc pas estimer les dégâts concrets, réels, avant d'avoir remis l'alimentation électrique à la population. Sur le cuivre là aussi il est très difficile d'estimer les dégâts. Mais aussi étonnant soit-il, il est possible, sur certains cable de connaître son état grâce... à la pression de l'air. Et oui, ça parait presque étonnant, et pourtant c'est profondément ancré dans l'histoire des télécoms. Déjà lors des premiers déploiements de cables téléphoniques en villes, il était commun de les maintenir sous pression afin d'éviter toute présence d'oxydation du cable, ce qui a pour conséquence de dégrader considérablement la qualité de la ligne par effet d'attenuation du signal. Cette technique est restée d'usage. On trouve alors encore dans certains Noeuds de raccordement abonnés, ces petits points de connexions à l'autre bout de votre ligne téléphonique, des machines ronflantes, et faisant régulièrement un pshiit caractéristique de l'injection de pression dans le cable. Un cable endommagé, tel un ballon crevé ne tiendra pas la pression, et se remarquera alors sur les aiguilles du cadrant de la machine. Tout cela sonne très steampunk, mais on s'éloigne du sujet.

Il n’empêche que l'opérateur historique, Orange, à qui appartient aujourd'hui ce réseau financé par de l'argent public a sa création, et voué à disparaître, ont eu le culot de demander à l'état de financer les réparations de leur réseau cuivre sur l'Ile. Le Journal de Mayotte disent même à propos de la situation que "les opérateurs dépendant de france télécom. Nous voilà revenu en arrière a une autre époque. Mais oui, les cables des opérateurs passent dans des fourreaux qui appartiennent pour beaucoup à Orange, qui en a hérité de son passé public. Cependant comme tout bon mlarché réglementé, il y a des règles, et tout opérateur disposant de fourreaux doit proposer une offre pour l'occupation de ces derniers par les autres opérateurs. C'est un moyen de mutualiser. Un moyen de réduire les coûts, les délai, mais aussi d'éviter de forcer une collectivité à recevoir des travaux pour que chacun pose tout ce qu'il faut sur toutes ses routes. Rappelons d'ailleurs qu'il y a un délai réglementaire pour avoir le droit de casser un enrobage d'une route ou un trottoir. Seulement voilà parfois la construction du réseau ne peut accepter des années de délais comme ça...

Sur place seuls quelques sites mobile ont tenu le coup, certains complètement détruit, et chaque opérateur porte son propre réseau. Vient alors la question d'être en capacité d'imposer une mutualisation en cas de catastrophes naturelles. Cette mutualisation des réseaux, certains opérateurs, comme SFR et Bouyges le font déjà au travers de la structure infraco. Free a longtemps "squatté" des infrastructures Orange. On a également de la mutualisation de pylônes payés par la collectivité sous le titre "New Deal Mobile". Ce genre de mutualisation, et la capacité d'en réaliser en période de crise demeure des pistes intéressantes de réflexions pour nos réseaux futurs. Comment créer de la concurrence si le réseau est purement le même d'un point de vue technique ? En tout cas partager des points hauts et des pylônes évitent une pose coûteuse de ces derniers, et de l'infrastructure électrique notamment derrière.

Il n’empêche que beaucoup de sites sont déjà en partage, encore plus en zone rurale ou le partage est très courant.. Il est par contre arrivé, que TDF, autre ex-entité publique comme France Telecom, à l'issue de la perte d'un appel d'offre du conventionnement public pour la reprise d'un site hébergent un pilonne, payé par la collectivité, démonte simplement les équipements, et le point haut au passage. Un coup de mauvais perdant, contre lesquelles les collectivités doivent se prémunir quand elles signent des convention de délégations. La plupart du temps elles restent propriétaires à la fin de la convention mais doivent tenir face à la pression forte de certaines entreprises peu intéressées par la notion de biens communs.

L'histoire des travaux publics en mairie qui coupe tout

Des fois des travaux de génie civil impactent les télécoms. En réalité, tout les réseaux sont touchés. Un nouveau bâtiment ? Si des cables passaient là il faut les déplacer. Un changement dans les trottoirs ? Une ligne de tramway ? que des situations pour ce qu'on appelle des dévoiements. Faire changer les cables de direction.

Les cables sont la plupart du temps dans des fourreaux qui les protègent et assurent la continuité entre les chambres télécoms. Il faut alors tout couper quand ces fourreaux vont être cassés, et les faire remplacer par un autre tracé, souvent créé spécialement pour rerouter.

Si je vous parle de ça, ce n'est pas par hasard. Vous vous doutez bien. On a eu dans les semaines dernière l'un des plus gros dévoiement qu'on a jamais vu. Pour des travaux devant la mairie d'Aubervilliers. De notre côté, entre de l'historique pas ou mal référencé et des centaines de liens passant par là, au milieu de tout les datacenter de la Seine-Saint-Denis, on a du s'attendre au pire. Équipes spéciales, blocage de toute autre maintenance de toute la semaine, relevé des cables et soudures existantes avant l'opération pour vérifier que tout est prêt pour le jour J. Panique sur des historiques non référencés, sur la proximité de cables ne devant pas être impactés (mais un mauvais coup de pelleteuse n'est jamais loin...).

Tout s'est presque bien passé. Disons qu'on a eu très très peur. Pour ces choses là l'entité faisant un génie civil demandent les plans des fourreaux et des infrastructures enfouies pour prévenir les autres. Les fourreaux étant là a Orange, hérités de France télécoms pour la plupart. En tout cas on espère que les autres opérateurs ont aussi bien vécu cette opération sensible au plein coeur des datacenters d'Ile de France. Qu'ils ont au moins reçu le mail quoi...

Les mailing lists des IX

Il faut que je vous parle des mailing lists des nœud d'échanges. Les point d'échange sont des réseaux neutres permettant d'interconnecter des réseaux entre eux. La mise en place de ces derniers nécessite une coordination entre leurs membres, à l’intérieur de ces derniers. La plupart du temps cela se fait à l'aide de mailing lists, listes de diffusion de mails si vous préférez qui permettent à la totalité des membres du point d'échange de communiquer. Initialement cela permet de signaler une maintenance d'un des membres (et donc une temporaire déconnexion), de prévenir d’événements particuliers, ou historiquement, dans les point d'échanges ayant des statut faisant des opérateurs membres les décisionnaires de politiques, cela permet aussi d'en discuter et débattre.

Le problème est que certains opérateurs sont... trop gros, et... trop déconnectés de ces mailing list en y inscrivant par exemple l'équipe en charge de l'exploitation du réseau. Ça génère un effet assez drôle lorsque les équipes en questions sont en charges de tickets support et ne connaissent pas le principe d'un point d'échange. On se retrouve alors fréquemment avec des effets catastrophiques de mésententes complètes. Un membre prévient par exemple qu'il va faire une maintenance sur son routeur sur le point d'échange. Les autres membres reçoivent donc le mail de prévenance. Et l'a on assiste parfois a des échanges magiques. Le second opérateur voit le mail arriver. Seulement voilà, ce mail ne contient pas de référence d'un lien chez eux. Cependant, comme tout mail reçu cela crée un ticket chez eux. Numéro de ticket traditionnellement placé en objet du mail. Et c'est là que ça deviens le début de la foire à la saucisse. Eux répondent donc à nouveau à cette mailing list qu'il manque une référence chez eux. Référence qui n'existera jamais, puisqu'il n'y a pas de lien contractuel direct sur le point d'échange. Et des fois un troisième opérateur se met alors a entrer dans la boucle. Puis quelqu'un en congés à configuré une réponse automatique, mal-configurée...puisqu'elle se met à répondre à tout le monde.

Pour en avoir parlé avec des personnes ayant fait partie du staff de points d'échanges, parfois des discussions comme ça, le seul moyen de les arrêter est de couper quelques heures la mailing list... histoire que tout le monde arrête de rentrer en confusion. Mais la base est de ne jamais inscrire une adresse générique avec des personnes de support à l'intérieur mais de mettre que des personnes connaissant ce qu'est un point d'échange. Pas les personnes qui traitent les tickets clients, mais les ingénieurs qui gèrent le réseau.
Mais si c'était si simple... De toute façon il existe d'autres manières de saturer un point d'échange que sur sa mailing list. Une simple mise à jour d'un parc informatique peut faire l'affaire.

Les Mises jour d'apple

Mais que font apple avec leur CDN? Leurs serveurs de mises à jours répartis partout dans le monde. C'est la question que j'ai du me poser quand ils ont décidé de nous saturer un point d'échange sur lequel nos deux réseaux sont interconnectés. Vraisemblablement leur CDN sait pousser beaucoup de trafic, par là où ça l'arrange. Quand on fait du réseau sur Internet avec d'autres opérateurs, il est facile de savoir quelles routes empruntent les données sortantes de son réseau, mais comprendre les décisions de politiques de routes entrantes est tout un autre sujet. Il est impossible de définir a l'avance qui nous enverra du trafic et par où. Enfin si, mais pas de manière fiable. Pas comme un réseau électrique qui peut et doit prévoir la consommation et réguler la production. Hors, Internet déteste la congestion. Donc un pic de trafic qui entraîne une congestion sur un point d'échange, c'est potentiellement des pertes de paquets pour tout utilisateur du réseau, vu qu'on ne connaît que nos routes de sorties, et non d'entrée. Si on passe par un lien congestionné, on pert des données. Données qui sont pour le coup réémises dans le même temps, congestionnant encore plus.

Hors voilà, on a un client Suisse et on est interconnecté avec Apple partout où on le peut. Et ce client Suisse a visiblement beaucoup d'appareils Apple dans son réseau. Et les CDN, systèmes visant à transmettre massivement des données au plus proche, et bien pour le cas d'Apple et de ce client décident arbitrairement d'envoyer massivement l'intégralité des mises à jour non pas de manière réparties sur les 5 interconnexions différentes qu'on a avec eux mais sur une seule, en bordure de réseau, sans prendre gaffe qu'en transmettant au plus vite et massivement ils créent de la congestion sur notre réseau. Passant de 2 Gbps d'utilisation, à 10 Gbps d'utilisation pendant 2 heures d'affilée, la capacité maximale du port. Évidemment qui dit trafic entrant dis... peu de choix que de le subir et de prévoir de plus grosses capacités. Voilà pourquoi un réseau informatique ne peut souvent pas se permettre de travailler sur les limites de sa capacité. Parce qu'il faut considérer les impacts, et que les causes d'atteintes de ces limites peuvent être nombreuses. Un réseau fiable et stable travaille autour des 30% de capacité. Pourquoi? Parce qu'en cas d'imprévu reroutant les données sur un autre lien, ce dernier doit pouvoir encaisser, et les données de la même source à la même destination empruntent souvent (il existe beaucoup de cas particuliers quand même) un unique chemin à un instant T.

Pour terminer

Désolé du délai pour cet épisode des coulisses. Entre le petit absence de motivation, les autres choses à faire, les autres projets, tout ça, j'ai assez peu écrit ici. J'ai hate toutefois de continuer à vous faire découvrir des petits bouts des quotidien des opérateurs réseaux. J'ai évité plein de sujets pour essayer de juste finir les quelques que j'avais depuis... Décembre.

A la prochaine.

Articles dans cette série