• 16 janvier 2015

    Retour sur l’incident du 16 janvier

    [EDIT du 21/01/2015]

    Par souci de transparence, nous souhaitons apporter quelques informations complémentaires aux événements de vendredi. Le rapport d’incident détaillé indique que les routeurs du cœur de réseaux se sont comportés anormalement suite à une opération de routine au sein de notre infrastructure. La connexion d’un élément actif sur notre réseau interne d’administration dédié à la gestion des routeurs uniquement a provoqué une réaction en chaîne de type ”Broadcast storm », qui a déclenché le mécanisme de protection de tous les nœuds.

    Ceux-ci constituent notre colonne vertébrale composée de 4 nœuds ultra-fiables répartis sur 3 sites. Cette colonne est interconnectée via une dizaine de liens à plusieurs opérateurs professionnels et FAI. La déconnexion de tous ces liens, y compris ceux de secours, a coupé nos clients d’Internet. Ces éléments de contexte, ainsi que l’actualité liée aux cyberattaques, ont malheureusement ralenti notre diagnostic et le rétablissement du service.

    La situation est complètement revenue à la normale pour l’ensemble de nos clients en début d’après-midi, soit 90 minutes après le début de l’incident.

    Même si certains clients ont souligné la transparence d’Oxalide lors de cette communication de crise, nous sommes bien évidemment concernés et désolés de cet incident. Habitués à une qualité irréprochable sur notre infrastructure, nous avons mis en oeuvre des dispositifs pour limiter à l’avenir l’impact de ce type d’incident sur l’infrastructure d’Oxalide.

    Nous en profitons pour remercier les équipes d’Oxalide, bien sûr, mais aussi plusieurs confrères, clients et fournisseurs qui nous ont fait part de leurs encouragements car l’actualité nous a involontairement ”propulsés” sur le devant de la scène alors que nous sommes habitués à l’ombre des coulisses d’Internet. Depuis 15 ans que nous faisons ce métier, ils savent à quel point, nous sommes des artisans exigeants avec nous-mêmes et comment un incident peut être mal perçu par un client alors que nous l’aidons tous les jours à résoudre les siens.

    On dit souvent que c’est quand il y a un incident que l’on voit la qualité d’un hébergeur.
    Nous espérons avoir été à la hauteur.

    Sébastien Lucas et Maxime Kurkdjian – La direction

    [EDIT du 18/01/2015]

    Une panne sur le cœur de réseau

    La journée du 16 janvier a été dédiée à garantir la disponibilité du service de nos clients. Des opérations se sont poursuivies toute la nuit du vendredi 16 au samedi 17 janvier pour approfondir le diagnostic.

    Elles ont permis de confirmer une panne sur le cœur de réseau sur l’ensemble de nos 3 centres de données et d’écarter définitivement l’hypothèse d’une attaque, de quelque nature que ce soit.

    Un rapport détaillé, complétant les éléments déjà fournis et les chantiers palliatifs planifiés, a déjà été envoyé à nos clients.

    Toutes les équipes d’Oxalide sont restées ultra-mobilisées pendant toute la durée de l’incident et nous continuerons à nous battre pour dépasser nos 1853 jours d’uptime…

    La coutume veut qu’on entende parler d’un hébergeur uniquement quand il y a des problèmes… et aujourd’hui c’est le cas. Ceci, couplé à la tension actuelle des médias, nous contraint d’être sous les feux de la rampe.

    Le scénario de l’attaque DDoS écarté

    Le 16 janvier à 10h, l’infrastructure de cœur de réseau a subi des dysfonctionnements qui ont impacté l’intégralité de nos clients pendant 90 minutes.  Envisagée dans un premier temps, du fait de l’actualité, une attaque de type DDOS, rapidement identifiable, a pu être écartée.

    Une fois l’origine de l’incident identifiée et isolée, les solutions de contournement ont permis de rétablir progressivement le service 90 minutes après le début de l’incident. La totalité des sites et services hébergés par Oxalide était de nouveau disponible à midi.

    L’incident est toujours en cours d’étude par nos équipes, afin de nous permettre d’établir un diagnostic approfondi et de fournir à nos clients une information détaillée, conforme à la qualité de service qu’Oxalide a toujours su donner.

    Une réputation d’experts

    Depuis 5 ans, nous n’avons pas connu, sur notre infrastructure, d’incident majeur susceptible d’impacter notre réseau. Il faut effectivement remonter à 2009, et à une coupure électrique globale, pour identifier un incident fortement impactant pour nos clients. Le travail de fond des équipes tout au long de ces années nous a forgé une réputation d’experts sur les architectures web critiques.

    Celle-ci a permis de voir des grands noms du web français connus (leparisien.fr, lexpress.fr, 20minutes.fr, etc.) et services moins connus mais qui opèrent un grand nombre de sites (iAdvize, Lengow, Melijoe, Kwanko, clicrdv, etc.) s’appuyer sur nos infrastructures et nos services pour les aider à relever les défis propres à cet environnement synonyme de défis techniques quotidiens.

    Nous avons construit et fait évoluer notre infrastructure en conséquence, une infrastructure qui a toujours fait la preuve de sa remarquable robustesse. Nombreux sont les succès que nous avons remportés ensemble : soldes, élections, temps forts de l’actualité… Les exceptionnelles montées en charge de la semaine dernière, dues à la conjonction des attaques terroristes relayées par les sites médias hébergés et des soldes des sites marchands de nos clients, ont été assurées sans le moindre incident.

    La direction d’Oxalide

    Sébastien & Maxime

Newsletter

Inscrivez-vous et tenez vous au courant de l’actualité Oxalide