Incident de jeudi dernier

Comme vous le savez peut-être, jeudi dernier en fin de matinée, notre salle machine a été victime d’une coupure électrique. Cette coupure a causé une indisponibilité totale du site pendant quelques minutes puis d’importantes turbulences pendant plusieurs heures, rendant le service quasi, sinon totalement, inutilisable. Cette interruption de service est historique pour Dailymotion, le service n’a jamais connu d’interruption aussi importante depuis son lancement en 2005. C’est pourquoi nous pensons que nous vous devons quelques explications (attention c’est assez technique) :

Commençons par expliquer comment est traitée l’électricité dans une salle machine comme celle de Dailymotion. L’électricité est acheminée par 2 circuits EDF distincts, puis passe par des transformateurs. En cas de coupure, des batteries prennent le relais le temps que les groupes électrogènes démarrent (le site a un peu plus de 24h de fioul en réserve). En sortie des transformateurs, le courant est « nettoyé » par les onduleurs puis « stocké » dans leurs batteries. Ces onduleurs, séparés en 2 groupes de 3, fournissent 2 arrivées de courant différentes pour chacune des baies de serveurs. D’après notre hébergeur (Equinix), une erreur humaine aurait provoqué la coupure des 6 onduleurs en même temps, déclenchant alors une panne électrique totale pendant une grosse minute (le temps que les onduleurs redémarrent).


Voila pour la cause.


Suite à cette (violente) coupure, nos équipements réseaux et nos serveurs ont subi quelques dégâts.

En apparence, le cœur de réseau est vite revenu à la normal (une dizaine de minutes), mais en apparence seulement. En effet, certains équipements réseaux ont rechargé un mélange de différentes configurations (plus ou moins anciennes). La cause de ce mélange reste assez floue pour le moment.


Une des conséquences de ce mélange fût la perturbation des communications (multicast) entre nos différents frontaux web, les empêchant de se synchroniser pour se partager correctement le travail (un peu comme si à un carrefour, chaque feu vivait sa vie, indépendamment des autres).


D’autre part, les bases de données ont mis un certain temps pour vérifier leur intégrité. Tout comme les différents serveurs de stockage, lesquels ont mis une grosse heure pour s’assurer que les fichiers vidéo n’étaient pas endommagés.

Enfin, certains disjoncteurs n’ont pas supporté le redémarrage de tous les serveurs en même temps et sont tombés. Il a donc fallu attendre l’intervention d’Equinix, qui ne chômait pas par ailleurs, afin de les remonter.


Voila pour les conséquences.


La chronologie des événements fût donc :

· 11h16 : Coupure électrique

· 11h17 : Le courant revient, aucun service n’est disponible

· 11h30 : Le cœur de réseau remonte, quelques vidéos sont disponibles dans certains players embarqués

· 12h15 : Une partie de la plate-forme est rendue disponible, le site est en lecture seule et très difficile d’accès

· 12h45 : Les derniers disjoncteurs sont rallumés, les dernières machines démarrent enfin (stockage entre autre)

· 13h00 : La grosse partie de la plate-forme est disponible, le site est toujours en lecture seule et difficile d’accès. Quelques machines non indispensables ne redémarrent pas. Le trafic commence à remonter

· 13h30 : Les serveurs de stockage sont de nouveau disponibles

· 14h30 : La base de données principale est de nouveau disponible en écriture

· 15h00 : La communication entre les frontaux est rétablie, le site est pleinement accessible en lecture comme en écriture. Quelques services sont encore perturbés (upload webcam, recherche, encodage).

· 18h00 : L’ensemble des services est de nouveau pleinement opérationnel

Pour conclure, nous tenons à vous présenter nos excuses pour les désagréments occasionnés. Nous travaillons à l’amélioration de la qualité de service afin que cette interruption du service reste une exception dans l’histoire de Dailymotion.