Incident de jeudi dernier
Comme vous le savez peut-être, jeudi dernier en fin de matinée, notre salle machine a été victime d’une coupure électrique. Cette coupure a causé une indisponibilité totale du site pendant quelques minutes puis d’importantes turbulences pendant plusieurs heures, rendant le service quasi, sinon totalement, inutilisable. Cette interruption de service est historique pour Dailymotion, le service n’a jamais connu d’interruption aussi importante depuis son lancement en 2005. C’est pourquoi nous pensons que nous vous devons quelques explications (attention c’est assez technique) :
Commençons par expliquer comment est traitée l’électricité dans une salle machine comme celle de Dailymotion. L’électricité est acheminée par 2 circuits EDF distincts, puis passe par des transformateurs. En cas de coupure, des batteries prennent le relais le temps que les groupes électrogènes démarrent (le site a un peu plus de 24h de fioul en réserve). En sortie des transformateurs, le courant est “nettoyé” par les onduleurs puis “stocké” dans leurs batteries. Ces onduleurs, séparés en 2 groupes de 3, fournissent 2 arrivées de courant différentes pour chacune des baies de serveurs. D’après notre hébergeur (Equinix), une erreur humaine aurait provoqué la coupure des 6 onduleurs en même temps, déclenchant alors une panne électrique totale pendant une grosse minute (le temps que les onduleurs redémarrent).
Voila pour la cause.
Suite à cette (violente) coupure, nos équipements réseaux et nos serveurs ont subi quelques dégâts.
En apparence, le cœur de réseau est vite revenu à la normal (une dizaine de minutes), mais en apparence seulement. En effet, certains équipements réseaux ont rechargé un mélange de différentes configurations (plus ou moins anciennes). La cause de ce mélange reste assez floue pour le moment.
Une des conséquences de ce mélange fût la perturbation des communications (multicast) entre nos différents frontaux web, les empêchant de se synchroniser pour se partager correctement le travail (un peu comme si à un carrefour, chaque feu vivait sa vie, indépendamment des autres).
D’autre part, les bases de données ont mis un certain temps pour vérifier leur intégrité. Tout comme les différents serveurs de stockage, lesquels ont mis une grosse heure pour s’assurer que les fichiers vidéo n’étaient pas endommagés.
Enfin, certains disjoncteurs n’ont pas supporté le redémarrage de tous les serveurs en même temps et sont tombés. Il a donc fallu attendre l’intervention d’Equinix, qui ne chômait pas par ailleurs, afin de les remonter.
Voila pour les conséquences.
La chronologie des événements fût donc :
· 11h16 : Coupure électrique
· 11h17 : Le courant revient, aucun service n’est disponible
· 11h30 : Le cœur de réseau remonte, quelques vidéos sont disponibles dans certains players embarqués
· 12h15 : Une partie de la plate-forme est rendue disponible, le site est en lecture seule et très difficile d’accès
· 12h45 : Les derniers disjoncteurs sont rallumés, les dernières machines démarrent enfin (stockage entre autre)
· 13h00 : La grosse partie de la plate-forme est disponible, le site est toujours en lecture seule et difficile d’accès. Quelques machines non indispensables ne redémarrent pas. Le trafic commence à remonter
· 13h30 : Les serveurs de stockage sont de nouveau disponibles
· 14h30 : La base de données principale est de nouveau disponible en écriture
· 15h00 : La communication entre les frontaux est rétablie, le site est pleinement accessible en lecture comme en écriture. Quelques services sont encore perturbés (upload webcam, recherche, encodage).
· 18h00 : L’ensemble des services est de nouveau pleinement opérationnel
Pour conclure, nous tenons à vous présenter nos excuses pour les désagréments occasionnés. Nous travaillons à l’amélioration de la qualité de service afin que cette interruption du service reste une exception dans l’histoire de Dailymotion.
6 July 2009 à 19:38
si je comprends bien, dailymotion n’a pas ses propres UPS.
C’est juste etonnant.
6 July 2009 à 20:31
@PH : les salles machines (Datacenter, DC) sont étudiées pour mutualiser la redondance électrique, la gestion de l’énergie, et la gestion du froid (Clim), l’idée est que ce soit le DC qui s’occupe de ça et que les “locataires” s’occupent de leurs machines.
De plus, je ne crois pas qu’il soit autorisé à poser des UPS dans les suites, et tant bien même on pourrait, le coût serai bien trop important je pense :
- perte de place et coût d’installation (ça prend bcp place surtout si on a beaucoup de serveur)
- Investissement et maintenance (les batteries, ça coute chère, ça demande à être tester, et ça se change régulièrement)
Tout ça pour un service (qui a dit cher) sensé être fournis par le DC.
Ce type coupure est sensée être exceptionnelle même si y a eu un peu trop ses dernières année sur l’ensemble des DC parisiens.
Par experience, dans un DC (et en informatique en générale), on arrive à maintenenir le service s’il y a UN problème :
une panne de serveur, d’arrivé électrique, d’un onduleur, ou bieb une erreur humaine ou encore un accident. Mais à partir du moment où on cumule 2 erreurs, peu de chance que ça continue à marcher normalement…
Dans le cas présent, cette coupure est lié à un accumulation de 2 erreurs : une erreur d’implémentation et documentation d’une commande et une erreur humaine en exécutant la dite commande au lieu d’une autre.
tout ça pour dire qu’on a beau essayer de tout prévoir, tout redonder, il y aura toujours des incidents imprévisible… POBCAK
my 2 cents
6 July 2009 à 20:58
Félicitations à l’équipe de Dailymotion pour le travail de rétablissement dans l’urgence !
Et merci d’être aussi transparent vis à vis de l’incident.
6 July 2009 à 21:02
[...] Dailymotion livre en toute transparence le détails des évènements qui se sont enchainés il y a une semaine, provoquant l’indisponiblité totale du site pendant plusieurs heures. Une triste expérience inédite chez le site depuis le lancement en 2005. [...]
6 July 2009 à 22:03
Ce qui est particulièrement étonnant, c’est qu’un site comme Dailymotion ne soit présent qu’à Equinix ! Je ne sais pas combien de machines et équipements sont utilisées par DM, mais un multihoming me semble la moindre des choses, sur différents sites, avec différents prestataires de transit …
6 July 2009 à 22:48
Pour le multihoming, je suis assez d’accord, mais si l’archi n’a pas été pensé dès le départ pour être multi homming full redondant, c’est pas simple à mettre en place et c’est, comme d’habitude, très couteux. La question qui se pose finalement, c’est qu’elle coût ça a face à quelle risque…
7 July 2009 à 07:55
Un gros bravo à vous pour le travail accompli …ce genre de coupure c’est terrible …nous on a donné une fois il ya deux ans ..et c’est une galère sans noms … sans compter la perte financière qui en découle …
7 July 2009 à 14:57
Bravo pour la transparence de l’information.
Par ailleurs, c’est là ou on comprend les choix très particuliers de google avec leur systèmes de caissons et de batterie sur chaque ordinateur, on répartis le risque. Je ne dis pas que c’est transposable à tout le monde.
11 July 2009 à 10:50
bonjour,j’ai un problemmes,je n’arrive pas à ouvrir la page d’accueuil de dailymotion depuis le 10 juillet 2009!Comment cela se fait-il?
11 July 2009 à 10:52
pardon pour les fautes d’orthographes!!