| DATE | ADMIN | DESCRIPTION |
Le 12-05-2008 à 17h17 | Philippe | Oups !
Un clic malencontreux à faire partir, il y a quelques minutes, un message à tous les coopérateurs, alors qu'il n'y avait pas lieu.
Désolé.
Ajout : je m'aperçois que c'est trois messages que j'ai laissé passer ainsi. Je suis TRES désolé.
|
Le 30-04-2008 à 13h46 | Philippe | Lenteur de messagerie
La nuit dernière, les serveurs de messagerie ont connu un problème et 200.000 messages se sont accumulés.
Pour en permettre la diffusion, l'anti-spam a été provisoirement désactivé.
La situation devrait redevenir normal en cours d'après-midi. |
Le 28-04-2008 à 06h42 | Philippe | Message d'alerte erroné (bis)
Même problème que la semaine dernière. Ne pas tenir compte du message d'alerte concernant la bande passante envoyé cette nuit.
Et les Shadocks pompaient ... |
Le 23-04-2008 à 08h20 | Philippe | Interruption Gloux
La nuit dernière, la machine Gloux a eu une défaillance.
Le service vient d'être relancé et fonctionne à nouveau. |
Le 21-04-2008 à 07h03 | Philippe | Message d'alerte erroné
Cette nuit vers 01:00 est parti un message automatique pour alerter des dépassements de bande passante (au-delà des 2 Go du pack de base).
Malheureusement il est parti, par erreur, à de nombreux panels qui n'étaient pas concernés.
Désolé de ce couac.
«Moins ça marche, plus ça a de chances de marcher,» auraient dit les shadock ! ;-) |
Le 06-04-2008 à 09h37 | Philippe | Listes de diffusion
Les listes de diffusion connaissent des difficultés sporadiques depuis hier après-midi (samedi 5 avril). L'infogérant essaye d'apporter solution. |
Le 02-04-2008 à 14h45 | Ouvaton | [mysql] Vendredi (à une heure non encore déterminée) il va y avoir un déménagement d'un 1/4 de baie qu'on a encore chez notre ancien prestataire vers notre baie actuelle.
Cela ne devrait impacter que les coopérateurs qui utilisent la base mysql-vip2 qui sera indisponible le temps du déménagement. On va également retirer 2 nodes web du cluster mais ca continuera à fonctionner, ca devrait juste entrainer une petite baisse de perf du web. |
Le 02-04-2008 à 12h22 | Ouvaton | [web] c'est reviendu, je penche pour un trou réseau à un endroit du reseau, je contacte le fournisseur de bp pour savoir si c'est à son niveau ou si c'est le reseau wanadoo/orange qui a loosé.
Edit: C'est notre fournisseur de bp qui a fait un changement de fournisseur sans nous prévenir ce qui a entrainé 30 minutes de perturbation le temps que les routeurs se mettent à jour.
|
Le 02-04-2008 à 12h10 | Ouvaton | [web] Il se passe un truc en ce moment, pas encore compris quoi mais depuis orange je n'arrive plus à accéder à la plateforme alors que ca fonctionne sur une ligne free. Sans doute un soucis réseau. Je me renseigne, le monitoring montre que je ne suis pas le seul dans ce cas. |
Le 28-03-2008 à 12h34 | Ouvaton | [web] Un petit dessin vaut mieux qu'un long discours, voilà l'effet du blacklistage des fichiers tb.php
|
Le 27-03-2008 à 23h47 | Ouvaton | [web] Un (ou plusieurs) botnet s'attaque aux trackbacks de dotclear sur ouvaton, ce n'est pas nouveau mais ca a pris des proportions insupportables, la journée d'aujourd'hui a été calamiteuse et c'est très loin d'être la première fois. Les coopérateurs possesseurs de dotclear se recoivent des surfacturations énormes du aux 100aine de mega de spam qui s'accumulent dans leur base et la plateforme est pliée en 2 fréquemment à cause de ca.
Coté serveur nous n'avons pas de solution simple pour déméler le vrai trackback du trackback de spammeur, et nous n'avons pas vocation à le faire. Aussi une intervention virile a eu lieu: les trackbacks sur dotclear sont maintenant impossibles. Tous les accès aux fichiers tb.php ont été supprimés.
L'effet immédiat a été la diminution par 4 de tous les indicateurs de la plateforme CPU, load, traffic interne, I/O sur le filer, requete mysql ... La plateforme est de nouveau praticable pour l'ensemble des coopérateurs.
Désolé pour les coopérateurs impactés. A moins qu'une solution globale et efficace ne soit mise en place, l'accès ne sera pas réactivé. Libre à vous de renommer vos fichiers de trackbacks si vous souhaitez conserver cette fonctionnalité. |
Le 26-03-2008 à 19h08 | Ouvaton | [ssl] Les nouveaux certificats sont en ligne. Merci Jerome. |
Le 26-03-2008 à 15h39 | Ouvaton | [ssl] La coopérative e-toiles a été d'une rapidité impressionnante, elle a transmis le mail de vérif et on est pret à installer le certificat pour *.ouvaton.coop. Yapluka |
Le 26-03-2008 à 15h11 | Ouvaton | [ssl] Les certificats ssl sont arrivés à écheance la semaine dernière. En plus de vous envoyer des messages d'erreur à l'utilisation de gloux ou du webmail ca nous pose un gros problème au niveau de la validation des paiements CB qui doivent se faire manuellement, ce qui entraine des effets indésirables (des coopérateurs qui viennent de mettre à jour leur cotisation recoivent des rappels de paiement).
En raison du changement de prestataire qui avait tout géré la dernière fois sur sa propre interface, il a fallut tout recommencer à zéro. Bref le certificat *.ocsa-data.net est prêt. En revanche on a un soucis avec *.ouvaton.coop. La validation est partie chez le registrar du domaine (e-toiles.coop), on est en train de prendre contact avec eux pour tracer l'email mais ca va nous faire perdre du temps.
Rien n'est jamais simple ... |
Le 25-03-2008 à 16h14 | Ouvaton | [gloux] La création d'espace web était défaillante depuis quelques jours suite à une maj de gloux. C'est maintenant fixé. |
Le 25-03-2008 à 09h30 | Ouvaton | [web & messagerie] C'est revenu après reboot, fin de l'incident |
Le 25-03-2008 à 01h18 | Ouvaton | [web & messagerie] Le load balancer a l'air d'avoir un problème depuis une heure résultat le web et les emails sont morts. On attend des nouvelles de l'infogérant. Normalement on a un lb en failover donc ca ne devrait pas (n'aurait pas du) durer. |
Le 24-03-2008 à 09h12 | Ouvaton | [web] Un serveur web (node1-2) a crashé ce matin, rebooté à distance il fait sa vérification du système de fichier et est reparti il y a quelques minutes.
|
Le 23-03-2008 à 21h03 | Philippe | Création d'espaces Web
Il semble qu'il y ait un bug qui empêche la création de nouveaux espaces Web en ce moment.
Il est probable qu'il faudra attendre au moins mardi avant qu'un remède soit apporté.
Désolé. |
Le 23-03-2008 à 12h29 | Esther | Depuis jeudi il y a un problème de dialogue entre la Banque et Gloux.
Vos paiements par Carte Beue sont effectifs, enregistrés, mais Gloux ne reçoit pas le signal qui fait que la facture est marquée " payée".
Vous continuez donc à recevoir des rappels de paiements.. Ne vous inquiétez pas, dans le courant de la semaine, la correction va être faites et vos factures seront considérées par Gloux comme payées. |
Le 23-03-2008 à 12h16 | Esther | Les certificats de sécurité sont en cours de renouvellement sur la plateforme.
Votre navigateur lance la sirène d'alerte quand vous vous connectez, cliquez pour dire que vous avez même pas peur, et continuez... vous accéderez aux pages souhaitées sans risque. |
Le 21-03-2008 à 17h30 | Ouvaton | [web] le site a été repéré et coupé, le web fonctionne a nouveau normalement depuis 12h. |
Le 21-03-2008 à 11h03 | Ouvaton | [web] Ralentissement ce matin, diabolocom cherche le site qui est la cause. |
Le 21-03-2008 à 10h03 | Ouvaton | [services] Tous les certificats ssl ont expirés. En raison du changement de prestataire il faut recommencer la procédure from scratch. Je vais essayer de m'en occuper ce w-e. |
Le 11-03-2008 à 18h01 | Ouvaton | [web] Node1-3 est également reparti, les locks sur le filer empêchaient de monter le nfs au boot de la machine, et la rendait inaccessible. La plateforme est donc à nouveau complète. |
Le 11-03-2008 à 17h58 | Ouvaton | [messagerie] Le serveur node2-1 a été réinstallé. Il devrait être remis en live d'ici une petite heure. L'antispam va être réactivé. |
Le 11-03-2008 à 17h57 | Ouvaton | [web] Il y a eu un incident sur le web qui était indisponible une partie de l'après midi. Il s'agissait de multiple lock au niveau du filer qui ont complètement bloqué l'accès aux fichiers. C'est reparti. |
Le 11-03-2008 à 09h48 | Ouvaton | [messagerie] Roderic a installé le disque hier soir dans node2-1, y a plus qu'à réinstaller la machine, et on pourra réactiver l'antispam/antivirus. |
Le 10-03-2008 à 20h15 | Ouvaton | [php] D'ici une heure squirelmail devrait a nouveau pouvoir envoyer des mails, node2-1 était hardcodé dans la conf, ce n'est plus le cas
Le fonction mail() de php ne fonctionnait plus car le firewall de node2-2 était trop restrictif, c'est réparé également.
Bref les problèmes de mail php depuis la chute de node2-1 devraient maintenant être réglés. |
Le 10-03-2008 à 14h47 | Ouvaton | [web] on a perdu un node, il a crashé, a été rebooté à distance mais ne reprend pas son service. A priori ca sent le disque crashé. Le web tourne donc avec un serveur de moins. |
Le 09-03-2008 à 14h59 | Ouvaton | [php] On nous informe que la fonction mail() de php n'expédirait plus de mail. On vous informe dès que c'est revenu. |
Le 07-03-2008 à 15h06 | Ouvaton | [messagerie] Dell a été prévenu hier, le serveur est en garantie J+1 donc on va devoir attendre lundi pour la livraison du disque. Ensuite un voyage au datacenter et il restera la réinstallation. Donc la réactivation de l'antispam est toujours prévue pour la mi-semaine prochaine. |
Le 06-03-2008 à 20h49 | Ouvaton | [messagerie] node2-1 est un serveur mono disque dur, le disque est mort, plus de serveur. Il faut contacter Dell, recevoir le disque, aller en baie remettre le disque, que diabolocom réinstalle le serveur. Ca veut dire pas avant la mi-semaine prochaine.
En attendant node2-2 n'est pas capable de tenir la charge tout seul, l'antispam dans les boites est donc désactivé, il n'y a plus de mail en queue donc la situation est sous controle mais en fonctionnement dégradé (plus d'antispam/antivirus).
Les antispams / antivirus sont maintenus en sortie pour éviter le blacklistage.
Il est possible qu'on ait perdu quelques dizaine de mail (sur les 10aines de millier par heure) qui étaient sur le disque dur du node au moment de la rupture mécanique mais comme en mode normal les serveurs tournent en flux tendu la plupart sont des mails qui trainait dans la queue en attente de réponse smtp valide.
Les boites mails ne sont pas impactées, ca tourne encore sur une autre machine (filer2).
Bref en résumé:
- vous allez recevoir du spam pendant une petite semaine, je vous conseille d'éviter les catch all
- à part un petit ralentissement il y a une ou deux heure dans la délivrance de mail (avant qu'on coupe l'antispam) vous n'avez pas été impacté |
Le 06-03-2008 à 16h31 | Ouvaton | [messagerie] On vient de perdre un serveur de mail, il ne redémarre pas via APC, diabolocom est parti voir sur place ce qu'a le serveur.
La plateforme mail ne tourne plus que sur un serveur, la charge implique que certain mail vont passer en queue au lieu d'être distribué immédiatement. Pour l'instant on garde l'antispam allumé et on ne touche à rien. Suivant l'état du serveur mail qui est tombé à savoir s'il peut reprendre sa place ou s'il s'agit d'une casse machine on avisera.
L'information c'est donc que les délais de diffusion mail risque de commencer à s'allonger mais que pour l'instant la situation est sous controle.
|
Le 28-02-2008 à 16h25 | Ouvaton | [web] Grosse grosse charge anormale sur le web, le monitoring est au rouge. L'investigation est en court. |
Le 28-02-2008 à 03h18 | Ouvaton | [mysql] L'intervention est terminée depuis 1h du matin, la réplication est rétablie
[filer] Puisqu'une partie non négligeable des sites étaient down en raison de l'intervention et que l'infogérant était debout, un test a été improvisé afin de voir si la charge en écriture sur le filer était lié ou pas au web tout simplement en coupant le web. Et effectivement le nombre d'écriture par seconde passe de 100/s à 0 en quelques instants. Ca ne veut dire qu'une chose, c'est qu'on a pas d'élément indéterminé qui perturberait le web, la charge massive sur le web est directement lié à l'exploitation de la plate-forme.
Merci à Michael de Diabolocom pour avoir veillé tard :) |
Le 27-02-2008 à 22h57 | Ouvaton | [mysql] L'intervention planifié sur mysql1 est en cours. Les bases de données sont stoppées, les sites web utilisant mysql1 sont down. La copie de base de donnée devrait durer 3 heures. |
Le 27-02-2008 à 15h38 | Ouvaton | [web] un node s'est écroulé sous la charge, diabolocom vient de le relancer |
Le 27-02-2008 à 15h27 | Philippe | Sites Web très difficilement accessibles en ce début d'après-midi.
L'infogérant vient de relancer Apache sur l'un des serveurs (node1-1) et cherche à trouver ce qui s'est passé. |
Le 22-02-2008 à 14h45 | Ouvaton | [webmail] C'est réglé, le problème était dans la migration dns d'hier une typo dans un fichier de zone. Le truc c'est que ca marche mais ca marche pas :). Il faut attendre la propagation des dns, d'ici une erreur ca devrait être bon. |
Le 22-02-2008 à 14h33 | Ouvaton | [webmail] bon on a pas corrigé le bon problème en fait le webmail arrive sur gloux, doh!. Il y a eu une manip dans les vhost hier pour préparer le site de gloux et ca du casser le webmail. Ca devrait être réglé dans l'heure. |
Le 22-02-2008 à 13h44 | Ouvaton | [webmail] Le webmail est de retour, d'après Jerome une ip faisait un dos sur le ssl ce qui le rendait indisponible. |
Le 21-02-2008 à 17h48 | Ouvaton | [dns] En cours de migration dns pour ocsa-data.net, on réutilise a partir de maintenant nos propres serveurs dns.
On passe de
ocsa-data.net. 1200 IN NS ns4.eiole.net.
ocsa-data.net. 1200 IN NS ns3.eiole.com.
a
ocsa-data.net. 172689 IN NS admin2.ocsa-data.net.
ocsa-data.net. 172689 IN NS admin1.ocsa-data.net.
Il ne devrait pas y avoir de problème, ca a l'air de bien se passer. |
Le 20-02-2008 à 15h41 | Ouvaton | [mysql] Une intervention de maintenance planifiée le 27 février 2008 à 23h sur le serveur mysql1 afin de rétablir la réplication temps réel.
Il va falloir copier toutes les bases donc l'interruption de service devrait durer dans les 3 heures.
Le serveur mysql2 ne sera pas concerné par cette opération.
En résumé du 27 février de 23h au 28 février 2h du mat, le serveur mysql sera indisponible.
Aucun autre service ne sera impacté. |
Le 15-02-2008 à 23h12 | Ouvaton | [filer1] Cette histoire de filer va se terminer plus mal que prévu. Il semble qu'un nombre de panel (moins d'une dizaine pour l'instant) n'ait pas été backupé.
Cela se caractérise par un panel dont tous les sites web retourne une erreur 404 comme s'il n'y a avait pas de fichier (ce qui est le cas).
Il semblerait qu'en raison de la taille des disques qui empeche un backup global, le système de sauvegarde soit basé sur la présence d'une compte ftp global qui serait effacé ou absent sur certain panel.
Nous sommes évidemment navré pour les malheureux qui vont subir ce couperet. Globalement il faut contact admin-panel (at) ouvaton.coop si vous n'avez plus accès aux ftp afin de réuploader vos fichiers :/
Le modèle de sauvegarde va être modifier pour éviter que ca se reproduise. |
Le 14-02-2008 à 10h45 | Ouvaton | [filer1] La reconstruction RAID est maintenant terminée. La situation est donc revenue à la normale |
Le 14-02-2008 à 10h36 | Ouvaton | [filer1] Retour à la normal depuis 8h30 ce mati, tout devrait fonctionner normalement. La reconstruction de l'array RAID en est à 97% ca devrait être fini d'ici une grosse demi heure. |
Le 13-02-2008 à 21h13 | Ouvaton | Update: [filer1] le scénario catastrophe.
- Il y a quelques jours un disque du filer est detecté comme foutu. Pas de drame on est en RAID 5 donc on retire le disque et on le remplace.
- L'array RAID se reconstruit ce qui bouffe de la ressource disque, donc lenteur
- Jerome essaye d'optimiser le filer en testant un ram disk dans un coin du server
- Premier Kernel Panic, un bug non prévu au niveau du kernel crash la machine
- Le server ne reboote pas complètement, impossible de reprendre la main à distance, après un déplacement sur place de l'infogérant il s'avère que le BIOS attend une confirmation clavier pour finir son boot (GRRRRRRR ...)
- Une vérification disque se lance (fsck) et consomme trop de ressource pour pouvoir supporter en plus le web, tous les services sont arrêtés en attendant la fin du fsck (1h environ)
- De nombreuses erreurs sont relevés sur le system de fichier suite à l'arrêt brutal
- Tout est rallumé ca marche quelques minutes
- Nouveaux kernel panic au niveau du système fichier cette fois, le FS est endommagé (corruption des méta données de la partition qui contient les données des coopérateurs concernant le web)
- Tout est arrêté car le FS crash la machine, il est décidé de restaurer le précédant backup, ca va être très long car il y en a pour quelques centaines de Go
- D'ici demain au petit matin la restauration devrait être terminé, il va y avoir un time warp de quelques heures, c'est à dire que la sauvegarde qui va être restauré sera celle de la soirée précédante et donc que les fichiers uploadés dans la journée sont à réuploader. (cela n'impacte que le FTP web, pas de problème mail ...)
Tout service lié au web est down (webnews, les sites, le ftp ...)
Le reste continue à fonctionner (ML, mail ...)
|
Le 13-02-2008 à 17h04 | Philippe | Mauvaise nouvelle : le filer ne tient pas.
Il faut le relancer, reformater la partition, puis restaurer le backup.
Cela va prendre plusieurs heures. Remise en route probable en milieu de nuit.
Désolé. |
Le 13-02-2008 à 15h53 | Philippe | Le filer n'a pas tenu la charge suite au reboot.
Une vérification disque a révélé de nombreuses erreurs. Le système de fichiers a l'air mal en point.
L'infogérant est au chevet du malade et s'active pour un retour à la normale. Nous vous tenons informés dès que possible. |
Le 13-02-2008 à 14h01 | Esther | Les lenteurs constatées sur la plateforme sont dues à la reconstruction du disque qui a été changé hier soir sur Filer.
Pour le moment il en est à 68% et la reconstruction devrait être terminée ce soir.... c'est long cette opération !
donc on serre les dents sur un mode zen et ensuite on donne du temps au Filer :-) |
Le 13-02-2008 à 01h06 | Ouvaton | [filer1] un disque avait cramé depuis quelques jours et le RAID fonctionnait sans filet. Roderic vient de mettre un nouveau disque, l'array se reconstruit actuellement. |
Le 04-02-2008 à 21h21 | Esther | C'est réparé... petite erreur suite à manipultation. |
Le 04-02-2008 à 20h24 | Esther | Les serveurs de mails rencontrent des difficultés.. notre infogérant vient d'être informé. |
Le 04-02-2008 à 00h33 | Esther | vu les graphes, c'est fini depuis un bon moment... tout est reparti depuis 21 heures. |
Le 04-02-2008 à 00h20 | Esther | Panne de plusieurs serveurs web... vu sur Nagio par Robert... et depuis rien de neuf.
Je vous tiens au courant si j'ai des infos. |
Le 28-01-2008 à 16h48 | Philippe | Ce matin entre 10:30 et 11h:00 a eu lieu une interruption de peu de durée. Désolés. Tout est rentré dans l'ordre. |
Le 24-01-2008 à 18h51 | Ouvaton | [sympa] La nouvelle release de stable sympa sur freebsd se faisant désirer. Jerome a commité 2 patchs sur notre version pour fixer des trucs énervants:
Merci à l'équipe de Sympa. |
Le 23-01-2008 à 13h51 | Ouvaton | [dead] ... or alive. Tous les services sont de nouveau up. Si pour vous quelque chose ne marchait il y a 15 minutes et ne marche toujours pas maintenant, n'hésiter pas à le signaler sur les news. |
Le 23-01-2008 à 13h46 | Ouvaton | [dead] Not dead but bien raide. Jerome a réussi à reprendre le controle d'un APC et le reboot a été fait à distance. Plus besoin d'intervenir en baie donc tout devrait revenir plus vite. Ca commence à remonter, j'ai pas encore tous les détails sur qu'est-ce qui a été fait et comment une plateforme répliquée de tous les cotés peut avoir un SPOF aussi énorme. Plus d'info dès que c'est dispo, pour l'instant l'objectif est de remonter les services. |
Le 23-01-2008 à 13h28 | Ouvaton | [dead] tout ouvaton dead sauf les dns, suite à une fausse manip, il faut aller en baie mais on est pas encore carré sur les accès, on se grouille... |
Le 21-01-2008 à 13h55 | Rodéric | Intervention terminé. Le Filer vas mieux, merci.
;-)
Coopérativement |
Le 20-01-2008 à 21h33 | Rodéric | Intervention matériel sur un serveur Lundi 21 janvier vers 13h. Des perturbations peuvent arriver...
Coopérativement |
Le 15-01-2008 à 22h46 | Ouvaton | [web] Le web a eu un gros coup de chaud aujourd'hui, il a fallut désactiver deux sites qui bouffaient toutes les ressources en générant des process blocant qui monopolisaient le filer et filer qui en retour a bloqué tout le web.
Normalement c'est reparti. |
Le 15-01-2008 à 20h37 | Esther | Le filer a des problèmes...
L'infogérant est sur le coup.
Cela pourrait durer si il a besoin d'aller dans la baie |
Le 07-01-2008 à 22h59 | Ouvaton | [gloux] l'intervention est terminée. Donc si vous rencontrez des choses bizarres, ... c'est bizarre et il faut le signaler sur les news svp . |
Le 07-01-2008 à 21h52 | Ouvaton | [gloux] L'intervention décrite ci-dessous commence dans 2 minutes. Pas d'inquiétude donc. |
Le 03-01-2008 à 11h00 | Ouvaton | [gloux] Intervention lundi 7 janvier 2008 de 22h à 24h sur les serveurs d'administrations. Cela va entrainer une coupure de service sur l'interface de gestion de l'hébergement et le webmail, le mysql dont il est question est uniquement celui des serveurs d'administrations, pas des sites web.
Planning:
* 22h: coupure de Gloux ainsi que tous les services
web fourni par admin1 pour les coopérateurs (Gloux, phpmyadmin,
webmails) pour les bénévoles (cacti, nagios, top10, top10-mysql)
* 22h05: mysql passe en lecture seule (il n'y aura
donc plus de mises à jour des top10)
* 23h-23h30: mysql repasse en lecture-écriture
* 23h30-00h: ré-ouverture de Gloux, webmails ...
Voilou et bonne année à tous. |
Le 23-12-2007 à 10h07 | Philippe | [Facturation]
Le dispositif de facturation est (à peu près) au point.
Nous vous invitons à vous rendre sur votre panel pour prendre connaissance de votre facture de renouvellement et la régler.
Pour environ 10 % des coopérateurs, ces factures concernent des dépassements DISK. Le sujet est complexe et nécessite des échanges avec les admins.
Une "FAQ pour un ménage d’hiver" a été mise en place pour tenter de répondre aux questions les plus courantes. |
Le 17-12-2007 à 23h50 | Ouvaton | [listes de diffusion] Sympa a délivré tous les mails ce concrètement représente 8Mb/s de traffic non stop pendant 3 heures quand même. J'ai traqué la cause dans les logs et trouvé le fautif. Encore une pièce jointe mais pas le même bug que la dernière fois... Pas fait de rapport cette fois, c'est mal...
Edit: Bon aller après tout ca sert à quoi de dormir: Rapport de bug sympa 3588
|
Le 17-12-2007 à 23h06 | Ouvaton | [listes de diffusion] Reste un peu moins d'un millier d'emails en queue, vu la vitesse ca sera fini de traiter d'ici 00h30 |
Le 17-12-2007 à 21h47 | Ouvaton | [web] Un serveur web ne répond plus du tout, une demande de relance à distance via le KVM a été demandée à Eiole. Cela explique sans doute le retour des erreurs 500. 2 solutions :
- soit le serveur repart et tout revient à la normale
- soit il a un gros problème genre alim ou DD et là il va falloir faire une intervention physique ce qui va prendre du temps
En attendant on attend le feedback d'Eiole. |
Le 17-12-2007 à 21h45 | Ouvaton | [listes des diffusion] Le serveur web chargeant l'interface web de sympa a eu des faiblesses, ca devrait être ok maintenant. |
Le 17-12-2007 à 21h26 | Ouvaton | [listes de diffusions] Sympa s'était recassé la gueule. Je viens de relancer, pas de trace dans les logs sur la raison. Pas trop de mail en queue, la distribution du retard ne devrait pas prendre plus d'une heure. |
Le 17-12-2007 à 06h28 | Philippe | Listes de diffusion
Les listes sont muettes depuis dimanche après-midi.
Probablement encore un message qui bloque et un bouchon qui s'est formé.
Désolé. |
Le 15-12-2007 à 14h39 | Ouvaton | [listes de diffusion] Incident clot, tout est distribué, la queue est vide |
Le 15-12-2007 à 13h44 | Ouvaton | [listes de diffusion] C'est reparti à priori, je fais un edit d'ici une dizaine de minutes sur le temps de distribution des mails en attente
Edit: D'après la taille de la queue et sa vitesse d'écoulement tout sera distribué d'ici 30 minutes. Bon w-e.
|
Le 15-12-2007 à 13h14 | Ouvaton | [listes de diffusion] Bon je suis en route pour la connexion qui me donnera accès aux serveurs. J'y serai d'ici 30 minutes. Nel
|
Le 15-12-2007 à 09h57 | Philippe | Listes de diffusion
Depuis hier soir les listes de diffusion sont muettes.
Le logiciel de gestion (Sympa) est probablement coincé par un message, comme cela s'est déjà produit. |
Le 10-12-2007 à 21h16 | Ouvaton | [messagerie] Depuis ce w-e jerome a remis en place un antispam/antivirus allégé qui a l'air de tenir la charge. Il est légèrement moins complet que le précédant mais les gains en performance, lié à la désactivation de certains tests gourmands, devraient permettre de le conserver activé avec le traffic mail actuel tout en ayant un peu de réserve de performance pour les pics d'activités.
On espère que ca va tenir.
[liste de discussion] Sympa s'est planté vers 17h, je lui ai filé une claque immédiatement et il est reparti occasionnant une file d'attente d'une dizaine de minutes qui s'est résorbée en qq minutes. |
Le 07-12-2007 à 14h46 | Ouvaton | [messagerie] C'est node2-2 cette fois a 40k de mail, ca devrait être écoulé dans 1h ou 2. Bon on arrête les frais, tout antispam/antivirus sur ouvaton est désactivé jusqu'à ce qu'une solution durable soit mise en place. |
Le 07-12-2007 à 00h52 | Ouvaton | [messagerie] c'est réglé tout est dans la boite, merci jerome :) |
Le 06-12-2007 à 23h49 | Ouvaton | [messagerie] Ok c'est en cours de résolution, le serveur a rebooté et ainsi recupéré sa conf initial pas assez performante d'ici 4 heures tout est dans les boites. |
Le 06-12-2007 à 23h19 | Ouvaton | [messagerie] Ca y est encore 50k mail en queue sur le node2-1 et 2k sur node2-2, va falloir désactiver l'antispam sur le node2-1 |
Le 05-12-2007 à 00h40 | Ouvaton | [web] Bon en fait c'est passé, c'est revenu au vert mais ca a du chauffer pas mal vers 22h. Tout est normal maintenant. |
Le 05-12-2007 à 00h34 | Ouvaton | [web] On nous signale des lenteurs sur le web, bien que ce ne soit pas flagrant sur tous les sites. En revanche le monitoring indique une montée en charge louche à une heure où ca devrait être tranquillou. |
Le 01-12-2007 à 01h34 | Ouvaton | [messagerie] C'est pas fini. node2-2 a un problème, ca fait trois qu'il est remis en conf normal par jerome et trois fois qu'il se retrouve à garder les mails pour lui.
Il a été replacé en conf sans antispam/antivirus pour vider les 70k mails qu'il a kidnappé aujourd'hui.
Jerome va essayer de faire tenir toute la plateforme mail sur node1-1 qui lui n'a pas de problème. Si ce n'est pas possible il faudra désactiver l'antispam de manière durable. En attendant tous les mails vont arriver d'ici demain matin. |
Le 28-11-2007 à 10h25 | Ouvaton | [messagerie] Retour à la normale, tous les antispams sont en marche et les queues sont vides.
Dernière nuissance free nous a blacklisté pour quelques heures encore à cause des spams qu'on a du laisser passer. Si vous avez des problèmes pour expédier des mails vers des adresses @free.fr via le smtp vous pouvez toujours utiliser celui de votre fournisseur d'accès internet smtp.orange.fr smtp.free.fr smtp.noos.fr ... |
Le 28-11-2007 à 01h35 | Ouvaton | [messagerie] un des nodes mail (node2-2) était tombé faute de place pour écrire les logs. 70k mails sont en train de partir.
Ca devrait être le dernier épisode d'une longue série, Jerome a optimisé la conf afin que les nodes puissent supporter la récente montée en charge de l'internet en terme de spam, ce qui a provoqué les troubles récents.
Demain on repasse le node2-2 en conf de production avec antispam et tout le toutim et on en parle plus.
Le deuxième node (node2-1) lui fonctionne sans problème, mais comme il y a une distribution des mails sur les deux certains mails sont restés bloqués sur le node2-2 alors que les autres sont passés.
Tout sera là dans quelques heures. |
Le 25-11-2007 à 14h03 | Philippe | [Messagerie]
Nouvelle difficulté sur le serveur mail la nuit dernière (quelques mails bouclaient dans l'anti-spam).
Pour vider la file d'attente, Jérôme a momentanément désactivé l'anti-spam. Il le remettra dès que la situation sera redevenue normale.
Merci à Bzzz pour son alerte sur le forum tech.aide. |
Le 24-11-2007 à 05h10 | Ouvaton | [messagerie]Retour à la normale des services mails. Le smtp doit refonctionner et l'antispam être à nouveau actif. Merci à Jerome. |
Le 23-11-2007 à 12h10 | Ouvaton | [messagerie] Tout est maintenant arrivé. Il en reste sans doute un peu sur le mx2 mais le gros est là. |
Le 22-11-2007 à 23h24 | Ouvaton | [messagerie] Les deux serveurs de mails delivrent maintenant les mails prisonniers. Il en reste 300 000, ca devrait être bon vers les 3-4 heures du mat.
Comme indiqué précédemment tout passe sans autre vérification, plus d'antispam, plus d'antivirus donc faîtes bien attention à ce que vous ouvrez l'internet arrive chez vous dans votre boite principale et c'est pas toujours beau à voir.
Utilisez le pop de préférence et éviter de laisser les messages sur le serveur, vider les poubelles etc.. etc... le filer qui contient les boites mails était déjà bien plein et ca ne va pas lui faire du bien de recevoir 40Go de mail en plus.
On devrait repartir en conf normal d'ici la fin de la semaine.
A priori il ne devrait pas y avoir eu de perte brute, par contre il est possible que des mails restent bloqués dans des smtp d'autres service et finissent par arriver au prochain essai ou de finalement repartir vers l'envoyeur en erreur.
Les sources du problème sont une augmentation sensible du traffic mail ces derniers jours avec en parallèle un manque de maintenance sur les serveurs mails qui ont perdu en performance à cause de process inutiles qui tournaient jusqu'à se retrouver dans la situation impossible de recevoir plus de données qu'ils n'étaient capable d'en écouler.
Bon spam :/ |
Le 22-11-2007 à 20h13 | Ouvaton | [messagerie] Jerome (ex eiole) est gentillement intervenu sur les nodes mails. Après désactivation de tout ce qu'il pouvait exim s'est mis à faire du 4-5 10-15 mails par seconde. Par contre plus d'antivirus, plus d'antispam rien tout va vous arriver dans les dents donc attention à ce que vous ouvrez. Vu la vitesse on peut espérer que la situation va se stabiliser d'ici demain matin.
Une petite source d'inquiétude c'est qu'un des 2 nodes mails semble un peu dans les choux, mais bon on a une solution, on va se débrouiller. Des nouvelles demains.
Merci à tous ceux qui ont proposés leur aide et ont aidé effectivement: Spyou d'Absolight, Jerome, Julien Balas, Azuria :), et des tonnes d'autres sur le forum et ailleurs. Bon c'est pas pour tout de suite qu'ouvaton sera en mesure de gérer ses propres sourcis serveurs (intéressant labsus) en interne mais on y travaille. |
Le 22-11-2007 à 20h03 | Ouvaton | [loi de murphy] Bon ouvaton info a corrumpu ses données. J'ai récupéré dans le cache de google mais il manque les derniers développements
edit: J'ai restauré le reste avec les fautes d'aurthaugraf à partir du rss, tant pis pour le formating
|
Le 22-11-2007 à 17h35 | Ouvaton |
[messagerie] Rien à faire, ca continue à grossir et à partir lentement. J'ai appelé la cavalerie et fait appel à un infogérant extérieur la situation n'aura pas de solution avant au moins demain midi. Plus d'info dès que j'en ai en attendant j'ai diminué le flux entrant donc des mails vont commencer à être refusé et des messages d'erreur renvoyé aux emetteurs. |
Le 22-11-2007 à 15h35 | Ouvaton |
[messagerie] Eiole m'a fournie les accès aux machine, la situation est assez préocupante. C'est un bête problème mécanique. Plus de mail arrivent que de mail ne sortent. Donc des mails sont bien expédiés de la plateforme mais globalement il en arrive 10 fois plus dans le même temps. On peut couper les entrées pour accélérer les sorties mais ca ne va faire que retarder les échéances. Ou accélérer les sorties en retirant tout un tas de vérification ce qui veut dire ouvrir les vannes aux spams ce qui se transformera en boite au lettre bourrée de spam et ultra lente ce qui posera alors un autre problème. Le truc embettant c'est que la source de ce surplus de mail est difficile à analyser car tous les smtps de la planete qui attende le bon vouloir des smtp ouvaton déverse les mails légitimes en attente. Bref pas top. Couper les mails en entrée et laisser se déverser tous les mails en attente serait peut-être la moins pire des solutions mais on ne saurait pas à quoi s'attendre en réouvrant. Sortir 5 serveurs de mails en plus pour traiter la masse de mail est hors de notre portée, et globalement exim ne délivre actuellement que quelques dizaine de mail par minute par serveur ce qui sur pour une queue de 200000 mails par serveurs veut dire longtemps. |
Le 22-11-2007 à 11h13 | Ouvaton |
[messagerie] La queue continue de grossir, les serveurs sont chargés à mort et exim ne délivre que 3-4 mails toutes les 10 secondes donc si rien n'est fait la situation n'évoluera pas favorablement. Je récupère les accès aux machines. |
Le 22-11-2007 à 09h59 | Ouvaton |
[messagerie] Bon les échos que j'ai pu recevoir montre que ca n'est en aucun cas réglé. Il y a du avoir un nouveau blocage. Plus d'info dans l'heure. |
Le 22-11-2007 à 09h42 | Ouvaton |
[messagerie] Les deux nodes de messagerie fonctionne à plein régime depuis hier soir, la queue était de taille conséquente et les smtp continuait de la bourrer. Si tout s'est bien passé elle devrait être quasiement écoulée ce matin, j'attend un coup de fil pour le confirmer. Par contre l'antispam ayant été désactivé le contenu des box ne doit pas être beau à voir, un conseil utilisez le pop. |
Le 21-11-2007 à 17h30 | Ouvaton |
[messagerie] Un node mail sur les 2 a été remis en service dans sa nouvelle partition. Plusieurs problèmes ont été rencontrés: exim ne prend pas en compte un paramètre de sa configuration qui lui demande d'arrêter la la livraison de mail au delà d'une certain charge. Ce paramètre avait été augmenté pour éviter que cette sécurité s'active. Pour baisser la charge l'antivirus a donc été temporairement désactivé. La queue commence donc à ce vider. Cependant il reste une mauvaise nouvelle. La queue continue de se remplir plus vite qu'elle ne se vide et la source de ces mails n'a pas encore été authentifié (est-ce que c'est les mx2 et 3 ou pas). Bref des mails partent mais en l'état le problème ne va pas se résorber car + de 100 000 mails sont dans la queue et seulement quelques uns partent chaque seconde. Eiole travaille à remettre en état de fonctionnement le deuxième node et on voit à ce moment, ils devraient nous donner des accès qu'on essaye de régler le problème ou au moins de l'analyser. |
Le 21-11-2007 à 15h34 | Ouvaton |
[messagerie]Ca s'est compliqué la copie a été un échec car en copiant la partition de 4go sur une partition de 50, eiole s'est rétrouvé avec une copie qui a fait 50go où un fichier ratelimit prennait la majorité de l'espace. Eiole recommence la même chose en espérant que cette fois ca marche. Le service mail est toujours fermé. Avant copie: root@node2-1 /usr/spool $ df -h Filesystem Size Used Avail Capacity Mounted on /dev/da0a 484M 484M -38M 109% / devfs 1.0K 1.0K 0B 100% /dev /dev/da0e 484M 2.5M 443M 1% /tmp /dev/da0f 60G 6.0G 49G 11% /usr /dev/da0d 3.9G 3.6G -518K 100% /var nfs-web:/space/www 625G 229G 346G 40% /space/www nfs-web:/space/sessions 625G 229G 346G 40% /space/sessions nfs-web:/space/uploads 625G 229G 346G 40% /space/uploads nfs-web:/space/web-stats 625G 229G 346G 40% /space/web-stats nfs-mail:/space/mail 625G 506G 69G 88% /space/mail nfs-mailing:/space/mailing 625G 506G 69G 88% /space/mailing install:/usr/local/tftpboot/usr/local/install_node/base0.2-mail/usr/ports 64G 32G 28G 53% /usr/ports 15:31 Au moment de l'échec de la copie: root@node2-1 /usr/spool $ df -h Filesystem Size Used Avail Capacity Mounted on /dev/da0a 484M 484M -38M 109% / devfs 1.0K 1.0K 0B 100% /dev /dev/da0e 484M 2.5M 443M 1% /tmp /dev/da0f 60G 59G -4.8G 109% /usr /dev/da0d 3.9G 3.6G -2.8M 100% /var nfs-web:/space/www 625G 229G 346G 40% /space/www nfs-web:/space/sessions 625G 229G 346G 40% /space/sessions nfs-web:/space/uploads 625G 229G 346G 40% /space/uploads nfs-web:/space/web-stats 625G 229G 346G 40% /space/web-stats nfs-mail:/space/mail 625G 504G 71G 88% /space/mail nfs-mailing:/space/mailing 625G 504G 71G 88% /space/mailing install:/usr/local/tftpboot/usr/local/install_node/base0.2-mail/usr/ports 64G 32G 28G 53% /usr/ports 15:32 le détail de la nouvelle partition: root@node2-1 /var $ ls -l spool/exim/db/ total 820956 -rw-r----- 1 mailnull mail 4362067968 Nov 21 03:06 callout -rw-r----- 1 mailnull mail 0 Feb 5 2007 callout.lockfile -rw-r----- 1 mailnull mail 68821155840 Nov 21 12:08 ratelimit -rw-r----- 1 mailnull mail 0 Feb 5 2007 ratelimit.lockfile -rw-r----- 1 mailnull mail 5070848 Nov 21 13:34 retry -rw-r----- 1 mailnull mail 0 Feb 5 2007 retry.lockfile -rw-r----- 1 mailnull mail 192512 Nov 21 11:58 wait-amavis_esmtp -rw-r----- 1 mailnull mail 0 Feb 5 2007 wait-amavis_esmtp.lockfile -rw-r----- 1 mailnull mail 16384 Nov 21 11:47 wait-amavis_esmtpa -rw-r----- 1 mailnull mail 0 Feb 5 2007 wait-amavis_esmtpa.lockfile -rw-r----- 1 mailnull mail 1318912 Nov 21 13:30 wait-remote_smtp -rw-r----- 1 mailnull mail 0 Feb 5 2007 wait-remote_smtp.lockfil |
Le 21-11-2007 à 12h07 | Ouvaton |
[messagerie] Le service mail est coupé afin de ne plus produire de queue. Le spool est copiée dans une autre partition avec plus de place, étant donné la taille ca va prendre quelques dizaines de minutes. Ensuite le service de mail sera relancé et la spool va se remplir. En revanche Laurent n'a pas déterminé pourquoi la spool a fait cette taille. La seule explication trouvée était qu'un réglage d'exim demandait l'arret de la livraison si la machine était trop chargé et a monté ce paramètre. Plus de nouvelle quand la migration du spool est terminé. |
Le 21-11-2007 à 10h31 | Ouvaton |
[messagerie] Des news enfin. La queue des deux serveurs mails est remplie, 8 giga de mail par server, elle a été vidée à la main hier vers 1h du mat donc quelques mails sont passés jusqu'à 4h du mat mais globalement ce matin c'est encore plein et donc rebloqué. Eiole est depassé par les évênements et appelé son ancien salarié Laurent à la rescousse qui y travaille en ce moment. Eoile n'a pas de raison sur le pourquoi la queue a explosée ou pourquoi les mails se sont dupliqués. Au niveau des mails les mx secondaires ont du récupérer pas mal de mail mais avec des volumes de cette taille il n'est pas sur que tout finira par passer, et il y a un risque non négligeable que ca finisse par être retourné à l'envoyeur avec un message d'erreur. Ouvaton va reprendre la main sur le code source de gloux et l'infogérance en fin de semaine, mais ca ne veut pas dire qu'on gèrera mieux le problème qu'Eiole, espérons que l'expérience sera une réussite. |
Le 20-11-2007 à 14h09 | Ouvaton | On nous rapporte que le problème mail serait résolu ? Si ca n'est pas le cas n'hésitez pas à faire des retours sur les news |
Le 20-11-2007 à 11h44 | Esther | Le service mail... pop Imap sont à la ramsse.
Un nouveau courriel vient d'être envoyé à l'infogérant.
Je préviendrai quand notre infogérant nous répondra. |
Le 20-11-2007 à 01h31 | Ouvaton | On nous signale des lenteurs sur le mail pop et imap. Les ml ne sont pas impactées. L'infogérant a été encore une fois relancé, on a aucune info pour l'instant sur le pourquoi. |
Le 19-11-2007 à 16h39 | Esther | sympa tousse depuis 13 heures 30
Il vient d'être redémarré par notre infogérant |
Le 15-11-2007 à 08h57 | Philippe | [Messagerie]
La plate-forme rencontre des problèmes de messagerie.
Certaines boites anti-spam n'ont pas été vidées par leurs propriétaires depuis très longtemps. La charge est considérable.
Nous allons supprimer les messages vieux de plus d'un mois sur les boîtes anti-spam les plus chargées, jusqu'à retrouver un peu d'espace.
Nous ne savons pas précisément quand l'opération va avoir lieu. |
Le 14-11-2007 à 01h46 | Esther | Pas de nouvelle de l'infogérant... mais Squirrel refonctionne. |
Le 13-11-2007 à 20h47 | Esther | Squirrel, Horde rencontre des problèmes... pas d'accès
Notre infogrant est prévenu |
Le 10-11-2007 à 09h50 | Philippe | [Fin de panne]
Tout est revenu.
Pas d'explication pour le moment.
... mise à jour : il semblerait que la panne n'ait concerné que les connectés Wanadoo. |
Le 10-11-2007 à 09h32 | Philippe | [Panne]
Panne générale (seul le serveur de newsgroups répond).
Infogérant prévenu.
Pas de nouvelle pour le moment. |
Le 08-11-2007 à 10h27 | Ouvaton | [mail] Il a (avait ?) avec les emails à destination de wanadoo hier. Rien à voir avec ouvaton d'après les messages d'erreurs qu'ils envoient ils ont un problème sur un serveur, à vu de nez un update qui s'est mal passé chez eu. je ne sais pas s'ils ont réparé à l'heure actuelle.
: Command died with status 3:
"/wanadoo/postfix/libexec/me-filter". Command output: Can't open file
'wordlist.db' in directory '/wanadoo/bogofilter'. error #22 - Invalid
argument. Make sure that the database version this program is linked
against can handle the format of the data base file (after updates in
particular). |
Le 07-11-2007 à 16h25 | Ouvaton | [listes de diffusion]Suite au dernier incident et au rapport de bug que l'on a fait la communauté sympa a amélioré son produit. Tous les utilisateurs en profiteront et tous les ouvatons du monde gagneront en stabilité.
le rapport de bug pour les curieux
Open Source rulez! |
Le 06-11-2007 à 12h24 | Ouvaton | [listes de diffusion][loi de murphy] Problème mineur réglé sur les listes entre 10h et 12h. Un email avec pièce jointe ne plaisait pas à sympa et le faisait systématiquement planter. Le mail a été retiré de la queue et sympa relancé. Il y a eu 2 heure de retard dans la diffusion mais tous les mails ont été déservis. |
Le 05-11-2007 à 22h53 | Ouvaton | [listes de diffusion] 5900 décompte continue, ca tourne cette fois admin-panel commence à recevoir des mails (et représente 20% de la queue :( ). Pas d'inquiétude il n'y a pas eu de perte ca arrive juste douuuuuuuuucement. Je referai un point demain matin. Bonne soirée. A vi et j'avais oublié merci à Laurent de Typhon je pense qu'il a fait le premier gros netoyage de la queue
edit: 2h du mat, plus que 3950, on est dans la moyenne
edit2: 8 du mat, la queue est vide, tous les mails de liste en retard ont été distribués |
Le 05-11-2007 à 21h38 | Ouvaton | [listes de diffusion] La situation est stabilisée la queue est en train de diminuer. Le truc c'est que notre install de sympa avance à la vitesse d'un escargot malade sur une base de 11 mail par minute. La fil d'attente est encore de 6500 mail donc ca va prendre 9 heure et quelques pour s'écouler. Tout le monde aura donc recu ses mails demain matin. Je ne vais pas donner les éléments détaillés du problème pour éviter qu'un petit malin recommence mais en gros c'était un problème de bounce, un mail d'erreur qui était renvoyé en mail normal qui était renvoyé en mail d'erreur qui était renvoyé en mail normal... ce qui bloquait l'avancée des listes légitimes. Comment ca peut arriver ? Je dirais que c'est l'alliance d'un serveur de mail mal configuré chez le destinataire allié à un sympa qui n'a pas su repérer le problème et continuait bettement à distribuer un mail qui lui revenait. La mauvaise nouvelle c'est que c'est inhérent à sympa donc à moins de modifier le code ca pourrait se reproduire. La bonne c'est que comme toute installation de nouvelle liste est manuelle on fera attention. Voilà désolé pour le temps d'indisponibilité on cherche une nouvelle solution pour l'infogérance. En attendant j'interviendrai sur les machines quand Eiole sera à la rue. Merci à Romain de m'avoir filé le root et d'avoir fait son possible pour me montrer ou se passait les choses.
Petit message en passant, je voulais le faire plus tard mais tant pis je pense qu'il est temps pour ouvaton de faire appel à ses coopérateurs et à ses amis au niveau de la technique pointue donc si ca vous êtes un expert bsd ou éventuellement debian n'hésitez pas à m'écrire à nel (à) no-log.org. On ne reprend pas le root dans l'immédiat mais on peut commencer à en discuter. J'en profite pour remercier les membres/admin de Globenet, l'autre.net l'apinc et marsnet pour leur soutient moral et Valentin pour son hospitalité. ++
Nel |
Le 05-11-2007 à 20h41 | Ouvaton | [listes de diffusion]Bon on a brisé nos sacro saintes règles et eiole m'a filé la main sur le serveur. Ca à l'air d'être reparti mais à coup de 2 mails/5 secondes et y en a 7000 en attente donc je préfère pas faire le calcul mail ca fait plusieurs heure avant le retour à la normale. |
Le 05-11-2007 à 16h20 | Ouvaton | [listes de discussion] Bon on a enfin eu un peu d'info. Une liste est partie en sucette, ca a bouclé et le système de detection de sympa n'a pas fonctionné résultat des 100aines de millier de mail générés par une liste qui ont tué le serveur et rendu impossible son redemarrage. Le problème étant maintenant de netoyer tout ca pour pouvoir faire repartir sympa dans de bonne condition ce qui n'est pas des plus simple si on veut éviter de perdre des mails. |
Le 05-11-2007 à 10h59 | Ouvaton | [listes de diffusion] La situation est assez complexe notre infogérant Eiole n'est plus en mesure d'assurer dans les meilleurs conditions l'infogérance suite au départ quasi synchronisé de ses 2 sys-admin. Résultat c'est l'hébergeur Typhon chez lequel est parti un des salariés qui va intervenir pour réparer sympa. On attend donc leur intervention, ca devrait arriver dans la journée. Nous sommes bien conscient de la gène engendrée et travaillons à simplifier la chaine d'intervention. |
Le 03-11-2007 à 23h38 | Ouvaton | [listes de diffusion] Pas de nouvelle de Romain (Eiole) pour l'instant. A priori cela ne devrait pas engendré de perte de mail c'est juste un mail que Sympa n'a pas compris et qui fait planter le service. Il suffit (faut) le retirer à la main de la fil d'attente des mails. On attend que l'infogérant le fasse. |
Le 03-11-2007 à 14h38 | Ouvaton | [listes de diffusion] Un mail bloque probablement la queue de sympa, il a été demandé à l'infogérant de retirer les premiers mails de la queue et de redemarrer sympa afin de faire repartir le service. |
Le 03-11-2007 à 00h10 | Nico | [support] effet induit de la panne des listes de diffusion, le support ne reçoit aucun mail même si ceux-ci sont marqués envoyés. Pas d'étonnement donc si vous ne recevez pas de réponse à vos questions via le formulaire admin-panel :( |
Le 02-11-2007 à 16h10 | Philippe | [listes de diffusion]
L'infogérant a relancé plusieurs fois le logiciel de gestion des listes (qui se lance apparemment bien), mais quelque chose coince quelque part qu'il ne parvient pas à trouver. |
Le 02-11-2007 à 14h16 | Philippe | [mail]
Boites mail inaccessibles ("out of disk space").
Désolé.
Infogérant prévenu.
... 15h00 : boites accessibles. |
Le 01-11-2007 à 14h43 | Philippe | [Listes de diffusion]
Il semble que Sympa (logiciel de gestion des listes de diffusion) soit bloqué.
Un mot vient d'être envoyé à l'infogérant. |
Le 31-10-2007 à 16h34 | Philippe | [mail] L'infogérant informe qu'il vient de relancer le service mail. |
Le 31-10-2007 à 14h32 | Philippe | [webmail] Le webmail est en panne.
L'accès à https://horde.ocsa-data.net/ et son utilisation sont très laborieux.
Quant à https://webmail.ocsa-data.net/ c'est totalement impossible.
Un message a été adressé à l'infogérant. |
Le 30-10-2007 à 07h02 | Philippe | [mail] Une intervention a eu lieu cette nuit.
Ce matin la situation est redevenue normale.
(y compris l'envoi par Squirrelmail).
|
Le 29-10-2007 à 21h52 | Philippe | [mail] La situation s'aggrave. Les serveurs SMTP d'Ouvaton sont probablement engorgés quelque part. Les messages ne semblent plus passer du tout.
Nous n'avons pas de nouvelles de l'infogérant.
Désolé. |
Le 29-10-2007 à 08h10 | Philippe | [mail] Le souci demeure : l'envoi de messages par formulaires php et par SquirrelMail ne fonctionne pas ("61 Can't open SMTP stream.").
Nous n'avons pas de nouvelles de l'infogérant pour le moment.
Bon à savoir : L'envoi de messages fonctionne à partir de https://horde.ocsa-data.net/ |
Le 28-10-2007 à 01h01 | Nico | [Mail] Souci repéré sur l'envoi de messages via le webmail et/ou via la fonction mail de php. Etude en cours... |
Le 20-10-2007 à 14h25 | Philippe | [Listes de diffusion]
Retour à la normale le 20/10/07 vers 13h30. |
Le 20-10-2007 à 07h10 | Philippe | [Listes de diffusion]
Le logiciel de diffusion des messages de listes (Sympa) est bloqué depuis hier (19/10/07) vers 18h30.
L'infogérant a été prévenu. Nous attendons des nouvelles.
|
Le 10-10-2007 à 14h49 | Nico | [mail et web] la moins bonne nouvelle c'est que ce n'est pas encore tout à fait au point :\ |
Le 10-10-2007 à 14h42 | Nico | [mail et web] le volume des boites mail et des esapces web est disponible dans le détails en mode avancé sur votre panel : c'est une bonne nouvelle :D |
Le 05-10-2007 à 20h42 | Nico | [ouvaton.info] ouvaton.info est enfin sur un serveur différent que la plateforme web. |
Le 04-10-2007 à 20h43 | Nico | [web] le filer (le serveur qui a les données, vos fichiers) était en rade ce matin, des difficultés à repartir. Il a été opérationnel à nouveau vers 9h. |
Le 01-10-2007 à 22h12 | Philippe | [Erreurs 500]
Nous avions mis le dysfonctionnement du week-end passé sur le compte d'un problème MySQL (ce qui nous désolait beaucoup car nous espérions avoir trouvé, avec le doublement du serveur, un dispositif viable).
En fait, selon l'infogérant, le dysfonctionnement constaté aurait été occasionné par l'arrêt, encore inexpliqué, de trois "nodes Web".
Ils ont été relancés. Les choses devraient aller mieux maintenant. |
Le 01-10-2007 à 14h07 | Virginie | [Erreurs 500]
Depuis hier, les erreurs 500 se multiplient, rendant extrèmement difficile la navigation ou la mise à jour des sites dynamiques.
Notre infogérant est prévenu. Nous n'avons pas de nouvelles pour le moment. |
Le 25-09-2007 à 22h42 | Virginie | [Mysql] 27/09 Interruption
Le serveur "mysql1-vip" sera indisponible le jeudi 27 septembre 2007 entre 7h et 8h.
Cette interruption est nécessaire pour permettre la mise en place d'un serveur de réplication. |
Le 05-09-2007 à 09h43 | Nico | [Mail] Vous aviez précédemment la possibilité de créer une redirection vers plusieurs adresses en séparant celles-ci par des ";" dans la case adéquate de votre panel.
Cette possibilité avait disparu à tort suite aux restrictions imposées sur les catch-all. Elle devrait revenir lors de la prochaine mise à jour de Gloux et nous le signalerons donc ici aussi. |
Le 30-08-2007 à 11h32 | Philippe | Bonjour,
Les listes de diffusion ont été remises en route hier vers 16h30.
La mise au point de l'interface, adaptée à la nouvelle version, vient d'être achevée.
Le Service de Listes est donc à nouveau complètement opérationnel.
Avec cette nouvelle version de Sympa (5.3.2) les caractères accentués devraient être mieux gérés.
Si vous avez des remarques ou des suggestions au sujet des listes, le forum (newsgroup) tech.listes.sympa vous est ouvert sur news://news.ouvaton.net/ |
Le 29-08-2007 à 15h39 | Nico | [Mail] A priori, club internet aurait changer la configuration de ses serveurs de mail. Ces changements provoquent des difficultés dans les échanges entre les adresses club-internet et celles d'ouvaton, listes de diffusion comprises. Le problème a l'air dans le sens : réception chez club-internet de mail émanant d'ouvaton. Notre infogérant est sur le coup et cherche à régler le problème avec le postmaster-club-internet |
Le 27-08-2007 à 16h26 | Philippe | Bonjour,
Mercredi 29 août 2007, en milieu d'après-midi, les listes de diffusion et l'interface de gestion des listes seront arrêtées pendant une heure ou deux.
Nous allons procéder à une mise à jour du logiciel Sympa (passage à la version 5.3.2).
A l'occasion de cette opération, les fichiers de configuration et les bases d'abonnés seront sauvegardés (pour pouvoir revenir en arrière en cas de problème). En revanche, dans un tel cas, les archives ne sont pas
sauvegardées. |
Le 19-08-2007 à 22h01 | Virginie | [Mailing-list] Résolu
Le serveur de mailing-list Sympa a été redémarré. Tout semble rentré dans l'ordre. Aucun mail n'a été perdu. |
Le 18-08-2007 à 16h21 | Virginie | [Mailing-list] Lenteurs en ce moment
Depuis hier soir, nous constatons des lenteurs dans les mailing-list gérées par Ouvaton. Les messages peuvent mettre plusieurs heures à être distribués aux abonnés. Nous ne savons pas s'il s'agit juste de retards ou si des mails ont pu être perdus.
Notre infogérant est prévenu. |
Le 16-08-2007 à 00h06 | Esther | Le 7 août, l'ancienne machine mysql devenue serveur de back-up de mysql1 a vu une partie de ses disques fonctionnant en raid tomber raides. Comme Dell a une grande partie des commerciaux qui restent qui sont en vacances, la commande d'une nouvelle machine, traîne :-(
Donc ATTENTION... depuis le 7, plus de backup des bases qui sont sur Mysql1. Faites des sauvegardes ou passez sur Mysql2... sans oublier de changer l'adresse de votre base. |
Le 28-07-2007 à 11h27 | Nico | Avancées : notre IG travaille en profondeur sur l'ajustement des règles de mise en liste noire des envoyeurs de mails, les changements devraient se faire sentir très bientôt. Travail également sur les backup des bases de données, plus de détails prochianement. |
Le 24-07-2007 à 20h02 | Esther | le "bug fou" qui mettait les espaces web en erreur a eu droit à sa fête...
Donc plus de problème à ce niveau lors de la création d'un espace web ou bien d'un domaine / sous domaine.
Vous pouvez replonger dans vos panels.
|
Le 21-07-2007 à 18h26 | Esther | ce soir...
assez tard notre infogérant va reloader mysql1-vip.
Il faudra compter 5mn de down. Ceci a pour objectif de mettre en place une nouvelle fonctionnalité (patch perso dans le serveur mysql :D ). |
Le 21-07-2007 à 17h01 | Virginie | Depuis quelques jours, il y a un bug sur notre plate-forme, qui apparait lors de la création de nouveaux sites web.
Les symptômes du bug : le site n'est plus accessible, et retourne une erreur 500, et il n'est plus possible de se connecter en ftp dessus.
Ce bug sera corrigé au plus tôt mardi (les développeurs doivent d'abord faire des tests approfondis).
D'ICI LA, NE CREEZ PAS DE NOUVEAUX SITES !
Non seulement ils ne fonctionneraient pas, mais cela ne ferait que créer des problèmes, qu'il faudrait réparer ensuite.
Si vous êtes victime de ce bug, envoyez-nous un mail à
admin-panel (at) listes.ouvaton.coop
en précisant :
votre panel
et le nom d'au moins un site impacté. |
Le 14-07-2007 à 16h11 | Virginie | Plusieurs coopérateurs ont signalé avoir des problèmes à recevoir des mails dont les expéditeurs avaient une adresse chez hotmail.com ou sur un domaine géré par online.net.
Etant donnée la manière dont notre système de mail fonctionne, il est possible que ce blocage soit lié au blacklistage des serveurs d'Ouvaton, lui-même causé en grande partie par les catchalls externes.
Les catchalls externes ont été supprimés jeudi. Il faut donc un peu de temps pour que la situation redevienne normale.
Si ensuite vous continuez à avoir des problèmes pour recevoir desmails, écrivez-nous à messagerie (at) support.ouvaton.coop en nous donnant le maximum de détails et en particulier le message d'erreur que reçoivent vos correspondants, si vous avez une autre adresse où ils peuvent vous l'envoyer.
|
Le 12-07-2007 à 07h31 | Philippe | Le remplacement de mysql1-vip s'est achevé vers 02.00 cette nuit.
Dans la très grande majorité des cas, vous ne devriez rien avoir à changer à quoique ce soit, suite à cette opération.
Ce changement de machines s'est accompagné d'un changement de version de MySQL (maintenant en version 5).
Nous rappelons qu'un forum Ouvaton vous est ouvert pour discuter des questions se rapportant à MySQL. |
Le 11-07-2007 à 21h54 | Philippe | L'opération de remplacement de mysql2-vip s'est bien passée.
C'est maintenant au tour de mysql1-vip (ça va être un peu plus long probablement). |
Le 11-07-2007 à 20h11 | Philippe | L'opération de remplacement des serveurs MySQL par des neufs est en cours ce soir (d'abord mysql2-vip puis mysql1-vip).
Pendant cette opération, les sites Web dépendant d'une base de données sont inaccessibles. |
Le 10-07-2007 à 12h59 | Esther | Les nouvelles machines pour Mysql ont été testées.
Elles vont être installées mercredi soir.
Les deux machines, Mysql1 et Mysql2 tourneront avec un MySQL version 5... ce qui peut poser des problèmes pour des vieux CMS... Alors vérifiez avant, si vous en avez le loisir.
Voila le message de notre infogérant:
Bonjour,
voila, nous avons configuré et testé les nouveaux serveurs.
Ils sont nettement plus rapides que les serveurs mysql actuels.
Nous prévoyons de les mettre en place au plus vite pour
redonner à Ouvaton un rythme de croisière :) on peut
effectuer la bascule vers les nouveaux serveurs mercredi soir.
Les opérations sont les suivantes :
* arrêt du serveur mysql et backup
* mise en place du nouveau serveur mysql
* copie des données de l'ancien serveur mysql
sur le nouveau
* mise à jour vers mysql5 des données
* mise en place de la réplication
* tests
* ré-ouverture du serveur pour les serveurs web
Nous effectuerons l'intervention sur les 2 serveurs mysql
l'un après l'autre. C'est à dire que lorsque nous nous
occuperons de mysql2-vip, le serveur mysql1-vip continuera
de fonctionner en attendant son tour pour être migré.
Durant l'arrêt des serveurs, tous les sites web qui fonctionnent
avec mysql ne fonctionneront plus, mais tous les autres
services (mail, ftp, web static et php qui n'utilisent pas
de bases de données) ne seront pas impactés.
Voici le planning prévisionnel pour mercredi soir:
* 20h30: arrêt de mysql2
* 22h30: redémarrage de mysql2
* 22h40: arrêt de mysql1
* 01h40: redémarrage de mysql1
Ce planning est informatif, la fenêtre d'intervention
est : 20h30-2h00 heure de Paris.
!!! il n'y a aucune modification pour les coopérateurs,
cette opération est transparente, même adresse de connexion,
même login, même mot de passe.
|
Le 04-07-2007 à 18h02 | Philippe | Les sites qui dépendent du premier serveur MySQL sont actuellement difficilement accessibles (erreur 500).
C'est l'occasion de rappeler que nous avons mis en place un deuxième serveur. Encore faut-il que des coopérateurs en nombre suffisant fassent l'opération (pour le moment nous n'en sommes qu'à mi-objectif).
Rappel : l'opération en question est expliquée en
http://ouvaton.coop/spip.php?article238 (et sur le forum news://news.ocsa-data.net/coop.annonces ). |
Le 03-07-2007 à 13h04 | Esther | Notre infogérant doit ajouter un disque et ensuite mettre en place un raid logiciel sur le serveur de mailing list (c'était comme cela sur les 2 autres disques).
Il y aura 30 minutes de coupures du service de mailing liste Jeudi 5 à 15 heures.
|
Le 02-07-2007 à 16h23 | Esther | Bonjour, encore un pas en avant :-)
Après deux mois de privation de nouveaux coopérateurs...
Bienvenue, bienvenue chez les hébergés-hébergeurs de la coopérative Ouvaton.
Welcome, il est à nouveau possible d'ouvrir de nouveaux panels.
Oui, mais quel est le chemin pour souscrire... Le voilà.
https://gloux.ouvaton.coop/subscription/ |
Le 28-06-2007 à 21h54 | Grégoire Métral | Les catch-all externes, c'est-à-dire qui pointent vers des collecteurs (des adresses de courriel) qui se trouvent hébergés à l'extérieur de la plate-forme Ouvaton (p.ex. @free.fr, @gmail.com...) vont être interdits d'ici une quinzaine.
En effet, cette pratique de rediriger tout ce qui n'est pas précisément destiné à une adresse hébergée vers un autre fournisseur de services pose de graves problèmes de black-listage d'Ouvaton.
Modifiez vos catch-all d'ici là. Nous supprimerons ensuite toutes les adresses externes qui seront encore définies comme catch-all. Merci! |
Le 27-06-2007 à 21h28 | Esther | message attendu... La migration est à nouveau fonctionnelle d'Ouvaton sur Gloux d'Ouvaton III.
adresse ancien panel https://ssl.ouvaton.coop/panel/
Sautez sur vos panels... migrez, jetez un dernier coupd'oeil et ensuite découvrez votre nouveau pannel.
Ceux qui ont des domaines en nom propre doivent s'il ne l'on pas encore fait allez les changer chez leur registar. |
Le 27-06-2007 à 02h48 | Esther | ALERTE / maintenance de vos scripts et CMS...
Mettez vos CMS et autres scripts à jour...
Notre infogérant nous avertit à 0h 18 que des sites sont attaqués... Surtout les sites qui utilisent EVA.
Sauf, deux ou trois sites qui sembalient très importants, notre infogérant à désactiver un certain nombre de sites.
Message de notre infogérant:
---------------------------------
Bonsoir,
ce soir plusieurs nodes sont tombées coup sur coups.
Je pense que ça vient d'un coopérateur qui c'est fait
attaqué (ça c'est sûr qu'il c'est fait attaquer).
Je viens de lui couper tous ces sites web, il faut
qu'il mette à jour ces applications.
------------------------
Nous avons la liste des panels... Que je ne copie pas :-)
----------------------------
J'ai désactivé les sites web pour tous ceux-là (hormis citron
vert et un ou deux autres). Je vous laisse prendre contact avec
ces coopérateurs et leur réactiver leurs sites web (!!! ils
peuvent le faire d'eux-même), si je vois encore des attaques qui
réussisse sur leurs comptes, on devra prendre des mesures plus
radicale pour protéger les autres coopérateurs.
J'ai trouvé que le hacker utilisait un mail pour signaler
les sites attaqués, j'ai bloqué l'envoi de ces emails.
Pour le moment, la plateforme a l'air stabilisée :)
J'ai mis des barrières à différents niveaux (routage,
mail, serveurs web).
Je retourne me coucher.
------------------------
Que votre site ait été désactivé ou pas.... Mettez des CMS sécurisés... Pensez à la plateforme et aux autres coopérateurs.
Merci .Pour Le conseil de Surveillance
Esther |
Le 26-06-2007 à 23h07 | Nico | La mise en route du deuxième serveur MySql a causé une pétouille dans la création de nouvelles bases, création qui était donc impossible. Normalement c'est réparé, vous pouvez donc créer des bases comme bon vous semble dès à présent. |
Le 26-06-2007 à 10h30 | Nico | Pour chnager de serveur sa base MySql les explications sont sur http://ouvaton.coop/spip.php?article238 |
Le 25-06-2007 à 18h51 | Nico | Mise en production du deuxième serveur MySql |
Le 20-06-2007 à 00h05 | Nico | Le disque du serveur de listes de diffusion est très mal en point. De ce fait, un accès disque mal placé arrive à faire planter le serveur. C'est la raison pour laquelle il est tombé en panne vendredi soir.
Un nouveau disque a été préparé.
Il sera mis en place mercredi 20 juin 2007.
La durée d'intervention prévue est de deux heures.
Le service de listes de diffusion devrait donc être suspendu, ce mercredi en fin de matinée de 10h à 12h. |
Le 16-06-2007 à 14h13 | Esther | Sympa est reparti ce matin à 9h30..
Les messages sur les listes sont délivrés. |
Le 16-06-2007 à 04h50 | Esther | Le serveur Sympa semble avoir un problème... nos listes ne fonctionnent pas.... depuis 18 heures... et là toujours rien;
Eiole est prévenu |
Le 11-06-2007 à 12h27 | Nico | Toujours des soucis avec le serveur Mysql. J'en sais pas plus pour l'instant (donc les erreurs 500 sont là) |
Le 08-06-2007 à 01h02 | Esther | problème avec le serveur Mysql..
Ça rame un max :-((
Voila ce que dit notre infogérant...
la raison des lenteurs depuis 2 jours : MySQL.
Le serveur n'arrive plus du tout à suivre, j'ai fait quelques ajustements de configuration, mais rien à faire, la capa hardware du serveur est atteinte (le trio CPU / RAM / Disque est au bout du bout). Le serveur n'encaissera pas plus de requêtes /sec.
Seule solution: disposer d'un 2ème serveur MySQL.
Solution proposée :
* copier les bases de données du serveur mysql d'ouvaton 2 sur un des tout vieux serveurs d'ouvaton 2
* récupérer le serveur mysql d'ouvaton2 et l'installer
en tant que mysql2-1 (si vous retrouvez mes schémas visio de
l'époque)
Avantages:
* le goulet d'étranglement mysql sera résorbé.
Inconvénient:
* ce serveur était destiné à suppléer mysql1-1 (backup)
il ne pourra plus être de backup
* nécessité de récupérer et d'installer un serveur
+ backup de mysql pour pouvoir continuer les migrations
d'ouvaton 2 ...
* il va falloir coder quelque chose pour migrer d'office un certains nombre de bases afin que mysql1-1 retrouve une certaine vélocité (schéma de migration à définir)
Sinon, l'idéal serait d'acheter un nouveau serveur MySQL.
Eiole
J'ajoute que je me demande pourquoi nos sites deviennent ainsi gourmands en ressources... est-ce l'évolution des CMS ou le mode de fonctionnement et de gestion de notre nouvelle plateforme?
|
Le 07-06-2007 à 23h37 | Grégoire Métral | Un grand merci à tou-te-s les coopératrices-teurs pour les infos transmises, sur les forums et sur admin-panel, concernant les erreurs 500 afin de permettre un diagnostic à EiOLE. La cause semble être la suivante: serveur MySQL au taquet. Décision est prise de prendre un serveur supplémentaire en urgence pour doubler le serveur MySQL, mais il faudra envisager à terme l'achat d'une nouvelle machine.
Encore désolés pour ces désagréments qui n'ont guère été anticipés, et qui ont mis quelques jours à être pris vraiment en compte... |
Le 07-06-2007 à 15h13 | Grégoire Métral | EiOLE se penche sur les problèmes de lenteurs et d'erreurs 500. Ils sont notamment présents sur le forum tech.aide des news. Pour les problèmes constatés, ils demandent un maximum d'informations pour pouvoir établir les diagnostics:
Panel:
URL:
IP:
Date:
Heure:
Base de données:
Application utilisée (ou home made):
Version de l'appli (ou NA si home made):
Avis quand à la charge sql demandée par votre appli:
Avis quand à la charge php demandée par votre appli:
Postez ces infos sur le forum, ou envoyez-les à admin-panel [at] listes.ouvaton.coop et on en fera un "digest" périodique. |
Le 07-06-2007 à 12h21 | Esther | Mysql vient de faire une syncope... les toubibs sont à son chevet |
Le 05-06-2007 à 22h59 | Nico | Retour des news via interface web http://webnews.ouvaton.coop |
Le 03-06-2007 à 21h42 | Grégoire Métral | C'est revenu. Deux fois en une journée, je n'aime pas ça... Attendons pour voir. |
Le 03-06-2007 à 21h04 | Grégoire Métral | De nouveau des instabilités sur la plate-forme... PHP en cause? On cherche. |
Le 03-06-2007 à 14h13 | Esther | C'est reparti |
Le 03-06-2007 à 14h10 | Esther | La plateforme est tombée... problème avec un load-balancer.
Eiole est sur le coup.
|
Le 02-06-2007 à 09h59 | Nico | Les NG sont définitivement revenus avec blabla au tête :D
Pour les utilisateurs de thunderbird (entre autre) il y a quelques manips à faire pour retrouver les fonctionnalités : vous pouvez utiliser la nouvelle adresse news.ocsa-data.net, le plus simple après est de supprimer votre ancien compte de News, supprimer les fichiers correspondants dans votre dossier Thunderbird puis recréer les comptes.
EDIT: La liste a légèrement changé, donc pensez à bien rafraîchir les groupes. Et n'oubliez pas non plus cette faq! |
Le 28-05-2007 à 14h33 | Nico | Mails ouvaton vers cegetel
Il y avait des soucis pour l'envoi de messages vers cegetel en utilisant le smtp ouvaton. L'IG a retouché la config des serveurs de mails, et d'ici demain (propagation de la nouvelle config) ça devrait passer systématiquement (tests déjà concluants aujourd'hui de ma part via Webmail et messagerie Thunderbird). Les serveurs de Cegetel restent quand même mal configurés selon notre IG :( |
Le 27-05-2007 à 10h35 | Nico | Point sur échanges avec mails sur domaine cegetel et neuf
Cegetel/Neuf refuse les mails envoyés via le smtp d'Ouvaton (avec TDB ça ne part même pas, avec webmail message de non distribution). Pour les gens concernés, une solution temporaire est d'utiliser le smtp de votre FAI, à moyen terme contacter cegetel pour leur dire que la configuration de leur serveur n'est pas bonne. Nous regardons de notre côté ce qui est jouable avec l'IG. |
Le 26-05-2007 à 10h51 | Nico | Le remontage de l'ancienne plateforme (Ouvaton2) prend plus de temps que prévu, et nous n'avons pas encore accès aux données des comptes non migrés. Comme dit dans chaque mail personnellement pour les concernés inquiets, nous annoncerons ici quand ce sera ok. |
Le 22-05-2007 à 11h41 | Esther | Pour ceux qui ont attendu le retour des services, vous avez pu constater comme moi que ce fût plus long que prévu... Notre infogérant a du tomber sur une difficulté... mais pour le moment nous n'avons pas encore le compte rendu de l'intervention. |
Le 21-05-2007 à 17h55 | Esther | Interruptions de nos services courriels le 21 mai au soir vers 19H 21H
Le raid logiciel présent sur ml.ocsa-data.net est en mode dégradé, et le(seul) disque valide présent dans le raid ne permet pas la reconstruction du raid.
Cette intervention va se faire ce soir. la fenetre d'intervention est de 19 à 21 heures. Il provoquera une coupure du service de mailing list (mails + interface d'administration).
Un reboot d'admin1 est prévu dans un but de tuning, ce reboot va entrainer la coupure de tous les services sur ouvaton de 5 à 15 minutes est à prévoir à vers 19h30.
(aucun email ne sera perdu durant l'opération). |
Le 19-05-2007 à 12h22 | Nico | Retour temporaire du serveur de news de l'ancienne plateforme... donc news disponibles ! tout ça en attente de la mise en route de notre nouveau serveur de news :D |
Le 15-05-2007 à 20h10 | Nico | D'après ce que j'ai compris il y a un bug qui traine sur le système de gestion des listes Sympa. Ca donne des bloquages de distribution de temps en temps. Relativement transparent quand on s'aperçoit assez tôt et des fois comme cet après-midi avec 4h de down.
Intervention donc ce soir entre 22h et 23h pour corriger ce problème a priori de manière définitive - interruption des listes pendant 5 minutes. |
Le 15-05-2007 à 19h15 | Nico | Coupure des listes de discussion cet après-midi, relancées ce soir vers 19h, donc effet induit support indisponible tout l'après-midi. |
Le 14-05-2007 à 19h50 | Nico | Un filer (un serveur avec des données dessus) a planté ce matin, ce qui explique l'interruption que certains ont vu à ce moment. Reboot prévu d'ici 23H - 5 minutes d'interruption de services pendant le reboot. |
Le 12-05-2007 à 18h57 | Esther | Bon, voici le petit message promis aux coopérateurs qui ont encore besoin de Rémi.... pour les données qui étaient restées sur ouvaton II. La machine est dans les mains d'Eiole et devrait être rapidement accessible sur le réseau.
|
Le 11-05-2007 à 23h11 | Nico | Des serveurs web (nodes) ont été rajoutés à la plateforme en début de semaine comme promis ;o) surveillez donc la disparition de vos erreurs 500 !
Suite à un cafouillage de notre part (Rodéric et moi pour les coups de fouets) et à une migration de comptes mails cafouilleuse (eh oui nous aussi avons des pb de migration) la plateforme Ouvaton2 n'a pas pu être remontée cette semaine...
Bref le temps de recaler tout ça, et nous devrions revoir nos NG, Ouvaton2 (pour les retardataires de la migration) dans le courant de la semaine prochaine. Les inscriptions et la facturation (vous ne croyiez pas rester sans payer comme ça, non !!) devraient suivre. |
Le 08-05-2007 à 20h08 | Grégoire Métral | Selon notre infogérant, la création de boîtes en @ouvaton.org est de nouveau possible. Les redirections sont toujours désactivées: elles seront réactivées avec les prochaines corrections.
Quant aux news, il faudra patienter avant de les revoir. Les serveurs ont été débranchés et elles réapparaîtront probablement sous une autre forme. Pour vos questions, vous pouvez aller sur http://forums.ouvaton.org/ |
Le 08-05-2007 à 11h16 | Nico | Actuellement la création des boites en @ouvaton.org et de sous-domaines en .ouvaton.org est impossible. Ce n'est pas un changement de politique, c'est un pb technique dans le nouveau panel ; on fait signe dès que c'est remis en route. Je dis au passage que pour tous ceux qui ont des pb à relever leurs boites en @ouvaton.org, le login est désormais l'adresse complète. Par exemple pour adresse@ouvaton.org, le login est adresse@ouvaton.org et non adresse tout court, le mot de passe reste inchangé. |
Le 05-05-2007 à 19h39 | Esther | Peut-être vous réalisez que les news groups ne fonctionnent pas depuis 17h30.
Grande nouvelle pour celles et ceux qui n'ont pas reçu ou lu le bulletin envoyé par le CS (conseil de Surveillance)," la migration est dans sa phase finale". Il n'y a plus une machine branchée dans la baie que nous avions chez Azuria... donc une partie des services liés à Vhffs ne sont plus accessibles.
Ceux qui n'ont pas fini de modifier les DNS de leur nom de domaine sont hors accès via Internet. Pour ces coopérateurs, vous devez aller sur le site du registar chez qui vous avez acheté votre nom de domaine et inscrire les nouveaux DNS de Gloux. (lire vos mails de migration) ou allez sur aide.ouvaton.coop
Des nouvelles machines vont être intégrées à la plateforme qui est maintenant dans notre baie à nous, avec nos IP Ouvaton et nous espérons tous que les erreures 500 vont devenir rarissimes.
A suivre ... :-) |
Le 04-05-2007 à 09h06 | Grégoire Métral | Les services de l'ancienne plate-forme vont être basculés sur Ouvaton 3 ce jour à midi. Cela va impliquer forcément:
- une perte de visibilité des sites dont les serveurs dns n'ont pas été changés. On va voir si une solution peut être trouvée temporairement.
- une copie des archives de mails des comptes de courrier xxx@ouvaton.org vers la nouvelle plate-forme et un changement des MX. Donc les propriétaires de panels qui ont des comptes ainsi vont être prévenus qu'ils auront à informer les détenteurs d'adresses emails concernés du changement de pop -> pop.ocsa-data.net. Là aussi on va voir si on peut envisager une solution. |
Le 03-05-2007 à 18h03 | Nico | L'imap est de retour, les soucis de messagerie devraient être réglés :) |
Le 03-05-2007 à 11h17 | Nico | Vous avez pu remarquer quelques troubles supplémentaires depuis hier soir : le déménagement des serveurs de notre ancienne baie est prévu pour vendredi soir (itinéraire tenu secret ;o) et du coup l'arrêt progressif de ces derniers a commencé. Ouvaton.info a donc foutu le camp pour revenir ce matin, on a vu quelques avertissements de code sur ouvaton.coop... les relevés en IMAP et webmail sont un peu chaotiques pour les @ouvaton.org... bref, la coop migre ! |
Le 27-04-2007 à 13h11 | Nico | Des coopérateurs ont signalé ce lien à propos des erreur 500 sur les Spip fraichement migrés : http://www.guiderdoni.net/Probleme-Spip-et-php-version-4-4-6.html
Merci de faire suivre vos résultats sur les NG/forums |
Le 26-04-2007 à 10h30 | Grégoire Métral | Des problèmes de santé ont retardé le déménagement de la baie. Normalement, cela se fera le vendredi 4 mai dans la soirée. Les derniers serveurs d'Ouvaton 2 auront donc été éteints auparavant (les redirections devraient permettre une bascule sans coupure de service). |
Le 25-04-2007 à 14h47 | Nico | Déménagement de Redbus, donc nos anciens serveurs prévu pour jeudi et qui rejoingnent donc notre nouveau data center, et donc viendront renforcer la plateforme ouvaton3 qui en a justement besoins. |
Le 23-04-2007 à 15h35 | Nico | Erreur 500, encore et toujours... voilà heure de pointe des serveurs et c'est quasi-impraticable pour du spip par exemple en consultation et en rédaction : l'arrivée de serveurs en renfort devrait réglr le souci... donc il faut attendre le démontage final de ouvaton2 (mettez la pression pour le smigrations pas faites) et l'arrivée de ces serveurs dans notre nouvelle baie (dans la semaine je crois) |
Le 18-04-2007 à 19h36 | Grégoire Métral | Question des erreurs 500, voilà ce que nous dit notre infogérant:
«Il y avait une erreur dans le script qui tue les processus trop gourmands (en temps) qui faisait du zèle. Ca a été corrigé il y a quelques jours et ce soir.
Normalement, ce script ange gardien ne fait plus d'effet de bord :) et tue juste ce qu'il faut (les mauvais php), le reste est laissé en vie.
Que la plateforme soit chargée ou pas n'a aucune influence sur ce problème.
Ce problème est réglé :) Tout est redevenu normal.»
On croise les doigts et on surveille. |
Le 17-04-2007 à 23h31 | Grégoire Métral | Voilà ce que nous dit EiOLE à 23h25:
«Voilà, filer1 a été rebooté (79 jours d'uptime :) ). Tous les services ont redémarré :) Il y a eu 5mn d'interruption supplémentaire dû à la montée en charge rapide de la plate-forme le temps que les nodes web reprennent du service (le temps que la plate-forme s'équilibre entre les 4 nodes web). Voilà, fin de l'intervention.» |
Le 17-04-2007 à 19h09 | Esther | Suite aux plaintes du "Filer" notre infogérant va discuter avec lui ce soir, pour qu'il n'ait plus de problème de mémoire. un fenêtre de 10 minutes, dite d'intervention, sera ouverte entre 23 heures et 24 heures.
à 23h.
Objectif: reboot de filer1. Seront impactés : tous les sites web (statique ou dynamique), le processus de migration sera arrêté.Les stats web (awstats), phpmyadmin, webmail ... seront indisponibles. |
Le 17-04-2007 à 13h19 | Nico | Message de l'IG :
filer1 (celui qui s'occupe des data web) a eu bobo ce matin.
La partie du filer qui s'occupe de locker les fichiers s'est trouvé à court de mémoire. Par défaut FreeBSD (sur i386) limite les processus à 512M, ce qui est trop peu pour le filer.
Ce matin, le processus qui s'occupe de locker les données a pris trop de RAM est s'est trouvé limité par le kernel. Normalement la limite des 512Mo n'est jamais atteinte, mais là, ce filer est très chargé :/
C'est la même panne qu'il y a 3 semaines.
J'ai trouvé le moyen de dépasser cette limite :) Par contre, cela nécessite de rebooter le filer :/ Je propose une intervention soit ce soir à 23h. Objectif: reboot de filer1. Sera impacté : tous les sites web (statique ou dynamique), le processus de migration sera arrêté. Les stats web (awstats), phpmyadmin, webmail ... seront indisponibles.
Fenêtre d'intervention: 23h-00h
Durée d'interruption du service: 10mn |
Le 17-04-2007 à 11h35 | Grégoire Métral | C'est revenu. Pas encore de nouvelles concernant la cause de cette coupure. |
Le 17-04-2007 à 09h40 | Grégoire Métral | La plate-forme est down depuis ce matin, 6h30. Pas d'autres informations pour l'instant... Désolés. |
Le 15-04-2007 à 17h45 | Grégoire Métral | Des sites semblent disparaître... Encore un coup du hacker qui se promène sur Ouvaton 2? Pour celles et ceux qui ne l'ont pas fait: migrez au plus vite! |
Le 03-04-2007 à 23h49 | Greg | [migration] phpMyadmin est revenu :-) |
Le 03-04-2007 à 22h46 | Greg | [migration] phpMyAdmin semble avoir des problèmes. On attend des nouvelles d'EiOLE. |
Le 03-04-2007 à 08h42 | Grégoire Métral | Le webmail Squirrel est revenu. Reste un problème de stats sur Ouvaton 3... |
Le 02-04-2007 à 10h17 | Grégoire Métral | C'est revenu, sauf le webmail qui semble encore dans les choux. Merci de signaler sur admin-panel [at] listes.ouvaton.coop s'il y a d'autres services en rade. |
Le 02-04-2007 à 08h45 | Grégoire Métral | C'est de nouveau la cata au niveau du serveur web et du serveur mail. On attend des nouvelles... |
Le 01-04-2007 à 23h16 | Nico | Le webmail ou la liaison webmail/boites n'a pas l'air de fonctionner dans la foulée... pas de news pour l'instant. |
Le 01-04-2007 à 17h04 | Esther | Nous avons fini par avoir un des Eiole's boys au téléphone. Ils s'y sont collés... un problème avec Apache... qui retombait à chaque fois.
Depuis 16 heures ça remarche.
OUF |
Le 01-04-2007 à 14h21 | Nico | Bon l'IG est sur le coup de la panne... ils cherchent. L'info technique dit "Apache plante tout seul sur les 3 nodes dans les 2 minutes qui suivent sa remise en route." |
Le 01-04-2007 à 03h28 | Esther | 3h25... Gloux, le html, est toujours en carafe... Une alerte a été envoyée aux Eiole's boys.... accès à Gloux mais pas aux sites.
En cette nuit du 1er Avril, la plateforme Gloux plus malicieuse que nous, a décidé de faire glou, glou... peut-être un poisson a happé le x... en attendant les sites migrés sont dans le schwartz cette nuit!
Les Eiole's boys, peut-être à la pêche, sont priés de retrouver le "x" inconnu et de remettre la plateforme à flots.
Bonne nuit et bon réveil aux matinaux :-) |
Le 31-03-2007 à 23h18 | Nico | Ouvaton3 en carafe ce soir pour une mauvaise date. Pas plus d'infos pour le moment, on contacte la team Eiole et on fait suivre les infos :( |
Le 31-03-2007 à 14h01 | Grégoire Métral | C'est la dernière qui sonne pour migrer! Vous avez jusqu'à minuit ce soir, 31 mars, pour lancer votre migration. Dépêchez-vous! |
Le 31-03-2007 à 14h01 | Greg | [migration] C'est la dernière qui sonne pour migrer! Vous avez jusqu'à minuit ce soir, 31 mars, pour lancer votre migration. Dépêchez-vous! |
Le 29-03-2007 à 23h16 | Greg | Nous avons (enfin!) reçu les certificats wildcard SSL, ce qui évite les messages d'erreur qui ennuyaient pour les accès sécurisés (POP, IMAP, phpMyAdmin et webmail). Enjoy! |
Le 15-03-2007 à 15h46 | Greg | [migration] Il y a eu un souci avec les sites SPIP aujourd'hui. C'était dû à une mise à jour de PHP (4.4.6) qui semble-t-il ne provoquait pas les améliorations désirées (c'est peu dire...) :-( Nous sommes revenus en arrière. |
Le 15-03-2007 à 09h20 | Greg | [migration] La migration a été temporairement bloquée, en attendant que quelques-unes de nos anciennes machines soient transférées dans la nouvelle baie. Les serveurs actuels pour Ouvaton 3 sont déjà à pleine puissance... |
Le 14-03-2007 à 14h34 | Greg | [migration] On vient de mettre en place la gestion des cgi sur Ouvaton3.
Donc à partir de maintenant le répertoire /cgi-bin (s'il existait sur l'ancien site), sera copié avec les données web au cours de la phase 2. Si le répertoire n'existait pas il sera quand même créé un répertoire /cgi-bin à la racine du site web.
Tout fichier qui sera présent dans ce répertoire sera interprété comme étant un script cgi (donc une image en .gif ne sera pas affichée). Enfin chaque fichier présent dans ce répertoire devra avoir avec des droits d'exécution (minimum 700). |
Le 05-03-2007 à 13h18 | Greg | [migration] Ça devrait aller de soi, mais ça va mieux en le disant: Ne donnez jamais vos mots de passe par e-mail! Par exemple, si vous utilisez le courriel qui récapitule tous vos noms d'utilisateurs et mots de passe pour demander des précisions, n'y répondez pas en laissant l'intégralité des mots de passe! |
Le 03-03-2007 à 22h46 | Jerome | [migration] Concernant les problèmes MySQL:
un logiciel est devenu instable suite aux nombreuses connexions aux bases de données. Il y aurait un bug de fonctionnement dans le logiciel. Nous sommes sur le problème depuis quelques jours. Nous avons patché le logiciel. Toute l'infrascture web a été mise à jour.
Le problème serait confiné. C'est à confirmer dans les jours qui viennent.
Désolé pour les interruptions de services liées à ce bug :/ |
Le 02-03-2007 à 11h31 | Greg | [migration] De nouveau problème MySQL. Pas d'info sur ce qui coince... |
Le 27-02-2007 à 14h05 | Grégoire Métral | Tous les messages de problèmes techniques concernant la migration et la nouvelle plate-forme peuvent être lus sur migration.ouvaton.info.
edit par nel: migration.ouvaton.info n'existe plus j'ai backporté les infos ici taggé [migration] |
Le 27-02-2007 à 14h03 | Greg | [migration] Pas de réponse directe, mais il semble que ce soit revenu... Si j'en sais plus, j'informe ici. |
Le 27-02-2007 à 13h33 | Greg | [migration] Problème MySQL sur Ouvaton 3 signalé par les coopérateurs. On attend la réponse d'EiOLE. |
Le 19-02-2007 à 21h48 | jerome | L'intervention prévue ce soir n'a pas eu lieu. A cause d'un mauvais modèle de RAM, nous n'avons pu effectuer les interventions prévues ce soir. Nous avons préféré décaller aussi l'intervention sur le serveur de listes de discussion. Nous allons reprogrammer ces interventions prochainement, vous serez informés tout pareil.
Désolé pour cette fausse alerte :/ |
Le 18-02-2007 à 12h20 | Grégoire Métral | Le hacker qui se balade sur nos sites semble continuer à sévir. Nous le traquons, mais il nous faudra peut-être arrêter le serveur web un moment pour fermer la porte par laquelle il est entré. Nous vous tiendrons au courant.
Edit (jerome - 19/02/07): l'attaque est contenue depuis dimanche midi. Cependant, des sites qui ont des failles de sécurité continues d'en être victime en se faisant défacé. Nous sommes attentifs à ces attaques et prévenons les coopérateurs victimes de ces attaques. |
Le 18-02-2007 à 10h55 | Rodéric | Des failles de securité chez certains sites de certains coopérateurs ont été exploité, résultat certains sites ont été éffacé. Nous allons donc prendre des mesures d'urgences pour sécuriser Ouvaton. Eiole est sur le pont, l'enquette continu... :/
Quelque risques de perturbation web et autre...
:-( |
Le 17-02-2007 à 16h59 | jerome | Interventions lundi soir (19 février 2007):
Dans la fenêtre 21h-23h nous allons réaliser les opérations suivantes:
* ajout d'un disque dur dans le nouveau serveur des listes de discution (ml.ocsa-data.net) (un des 2 disques durs a rendu l'âme il y a 1,2 semaines)
Impacts: retard dans la distribution des listes de discussions, interface web de configuration et archives indisponible
* ajout de RAM dans le serveur mysql. Nous allons ajouter de la RAM dans le serveur MySQL d'Ouvaton v3. Si vous êtes sur Ouvaton v2, vous n'êtes pas concerné. Seul les béta-testeurs Ouvaton v3 sont concernés.
Impact: les sites web qui utilisent des bases de données ne pourront plus se connecter sur le serveur mysql (127.0.0.1).
Tous les autres services fonctionneront (pages statiques, emails, ftp ...). Toute la partie base de données (création, suppression, changement de mot de passe ...) du panel Gloux sera elle aussi indisponible.
Je reposterais une fois l'intervention finalisée. |
Le 17-02-2007 à 16h43 | jerome | Grande vague d'attaque sur Ouvaton v2.
Un script "c99" est responsable de tout celà.
Il y a énormément de sites touchés. Si votre site est inaccessible, signalez-vous sur admin-panel [at] listes.ouvaton.coop.
Nous resons en alerte.
Edit (22h23): tous les scripts troués (c99.php) ont été désactivés. Le CA va envoyer un email à tous les coopérateurs touchés d'içi quelques jours (ils viendront dire quand ce sera fait), si vous n'êtes pas dans la liste et que vous trouvez quelque chose de bizarre sur votre site, contactez-nous.
Nous avons trouvé un porte d'entrée utilisée par le hacker. Nous l'avons fermé (un site d'un coopérateur).
Fin de l'incident.
|
Le 15-02-2007 à 14h23 | jerome | Intervention sur NS2 terminée. Tout c'est très bien passé.
Les services impactés (voir post ci-dessous) ne l'ont été que durant une quinzaine de minutes.
Fin de l'intervention, tous les services sont UP et fonctionnent :) |
Le 15-02-2007 à 02h25 | jerome | Intervention sur NS2: nous allons mettre à jour le système d'exploitation de ce serveur jeudi 15 février entre 14h et 15H (heure Française). Entre 14h et 15h, ce serveur sera retiré de la production pour pouvoir effectuer cette mise à jour. Tous les services (DNS primaires, DNS secondaire d'Ouvaton v2, MX secondaire d'Ouvaton v2, ouvaton.info) vont être indisponibles. Aucune perturbation sur ouvaton v2 ne sera à prévoir, les NS1, NS2, MX1 seront là pour assurer la continuité du service.
Je re-posterais une fois l'opération effectuée et les services rétablis. |
Le 15-02-2007 à 16h11 | Greg | [migration] La deuxième phase de tests est en cours -- les "gamma" tests comme dit Esther :-). Près de 200 coopératrices/teurs se sont proposés pour migrer leurs sites. Dans quelques jours, la migration de tous les comptes devrait pouvoir commencer. |
Le 07-02-2007 à 20h10 | Grégoire Métral | Il y a eu un petit souci avec les sous-domaines de ouvaton.org, suite aux tests de migration (plus complexes que pour les hébergements en nom propre). Il a fallu que les DNS se propagent à nouveau après le rétablissement. C'est maintenant chose faite. Pensez à vider votre cache avant de tester à nouveau. Désolés pour le dérangement... |
Le 01-02-2007 à 15h34 | Grégoire Métral | Les listes semblent revenues. Interface web disponible, mais ce qui a été posté depuis ce matin semble perdu :-(
Edit: ça semble arriver petit à petit :-) |
Le 01-02-2007 à 14h08 | Grégoire Métral | Quelques infos de la fin de matinée:
«Le RAID entre les 2 disques durs est cassé. Un des 2 disques durs est HS, donc freeze du serveur (attente de lectures sur ce disque qui est mort). Mais le pire, c'est que le 2ème disque dur (RAID soft) a été déclaré inconsistent (désynchronisé) avec le RAID (suite au reboot), pour une cause encore indéterminée.»
Un backup des données a été fait, puis la reconstruction a commencé, mais elle a échoué, d'où l'opération chirurgicale en cours. Plus d'infos quand on en a. |
Le 01-02-2007 à 13h20 | Grégoire Métral | Cette fois, j'en sais un peu plus. L'un des disques RAID est mort. L'opération chirurgicale est en cours, mais ce ne sera probablement pas rétabli avant 15h cet après-midi. |
Le 01-02-2007 à 12h13 | Grégoire Métral | Cette fois, c'est les listes (migrées) qui posent problème. Impossible d'accéder aux interfaces web, et les messages ne semblent pas arriver (ou alors au compte goutte). On enquête. |
Le 01-02-2007 à 10h08 | Grégoire Métral | FTP rétabli. |
Le 01-02-2007 à 09h09 | Grégoire Métral | Problème FTP. En raison de tests sur la nouvelle plate-forme, des ajustements ont eu lieu dans les noms de serveurs, et ça a entraîné quelques effets de bord. Ça devrait être corrigé sous peu. En attendant, utilisez l'IP 62.233.46.136 à la place de ftp.ouvaton.org. |
Le 30-01-2007 à 09h12 | Esther | [migration] Une bande de joyeux testeurs s'est lancée ce week-end avec leurs vrais sites... et à part les
|
Le 28-01-2007 à 19h46 | Rodéric | Le serveur ftp est repartis.
Les logs remplissaient le DD. Un peu de ménage et c'est repartis.
Merci Azuria. |
Le 28-01-2007 à 18h35 | Grégoire Métral | Je reviens de Paris, et je vois dans les messages que le ftp est down. Azuria a été prévenu pour redémarrer le serveur. Je ne sais pas où ça en est. |
Le 25-01-2007 à 17h18 | Greg | [migration] La migration va bientôt commencer. |
Le 15-01-2007 à 19h51 | Grégoire Métral | 1. Statistiques
Jean-Marie a stoppé le script de génération des volumes: si, il y a 6 mois, cela prenait environ 7 heures pendant la nuit pour la génération, aujourd'hui il n'a pas fait le tiers de son travail jusqu'à 15h :-( Impossible de continuer à charger comme ça les machines, même si ce n'est pas cool pour la coop de ne plus avoir ces stats...
2. Lenteurs
La conf de MySQL a été optimisée, la charge est très basse, mais les lenteurs persistent. Probablement le filer qui pédale quand il doit relayer les mails. On continue à suivre l'affaire, mais on n'a pas encore l'accès à toutes nos machines... |
Le 15-01-2007 à 10h53 | Grégoire Métral et Esther | Azuria nous a transmis une partie des clés nécessaires pour que nos données nous soient visibles et pour faciliter la migration afin que le travail de passage de nos services vers la nouvelle plate-forme se fasse en coopération. Les relations entre techniciens sont complexes et nous pensons qu'il ne faut pas prendre les dérapages au pied de la lettre :-). Nous allons tous oeuvrer pour une sortie vers le haut. |
Le 15-01-2007 à 10h50 | Grégoire Métral | Lenteur des sites faisant appel à MySQL ce matin. On enquête (voir message qui suit). |
Le 11-01-2007 à 13h22 | Grégoire Métral | Azuria procède actuellement à un check de la base de données. Ça devrait durer encore quelques minutes. |
Le 11-01-2007 à 09h05 | Grégoire Métral | La lenteur liée à MySQL semble résolue. Azuria parlait juste de "piste sérieuse", mais on n'en sait pas plus. Il y a eu visiblement un reboot.
[Edit] Quant aux mails envoyés depuis la plate-forme -- fonction mail() et webmail, c'est Azuria qui l'avait coupé en raison de trop nombreuses tentatives de spam. Ils le rétablissent, mais pronostiquent de nouveaux problèmes cet après-midi... |
Le 10-01-2007 à 21h03 | Grégoire Métral | Lenteurs toujours, pour les sites faisant appel à des requêtes aux bases de données. Et le SMTP semble hors service ce soir. Azuria est prévenu et a été relancé aujourd'hui. Ils n'ont pas répondu à nos sollicitations d'hier soir :-( |
Le 09-01-2007 à 19h37 | Grégoire Métral | WS8 est reparti, mais tous les sites qui font appel à MySQL ont des temps de résolution beaucoup trop longs. Le serveur MySQL semble très loin de la saturation... Azuria est contacté, nous attendons des nouvelles. |
Le 09-01-2007 à 18h39 | Grégoire Métral | WS8 tombe régulièrement. Azuria nous annonce un problème de nfs: le nfs se monte et se démonte, et du coup apache s'arrête et il n'a plus de données. Visiblement, aucune solution jusqu'ici, puisque WS8 est retombé en fin d'après-midi.
Nous attendons d'autres nouvelles et une solution d'Azuria.
Désolé pour ces désagréments et les lenteurs qui en résultent. |
Le 08-01-2007 à 16h28 | Grégoire Métral | Le serveur web tombé a été remonté au milieu de la nuit. Tout s'est bien passé... jusqu'à cet après-midi où il est tombé à nouveau :-( Azuria est prévenu et nous avons demandé un diagnostic plus approfondi. L'embêtant, c'est que c'est une de nos meilleures machines, donc le ralentissement se fait sentir. Désolés. |
Le 07-01-2007 à 22h47 | Nico | Un des serveur est arrêté depuis cet après-midi (WS8). L'infogérant est prévenu. |
Le 04-01-2007 à 07h35 | Grégoire Métral | Les explications d'Azuria vers 19h hier soir:
«Certaines personnes peuvent encore voir des ralentissements mais c'est normal: elles sont sur les serveurs qui n'ont pas encore jeté du trafic vers les autres serveurs du cluster. J'explique parce que c'est pas évident. Il y a plusieurs serveurs sur un cluster; tous n'ont pas le même poids. Certains démarrent à 1 Mb d'autres 2 Mb 3 ou 4 ou 5 etc... Lorsque des serveurs sont sollicités, c'est qu'il y a beaucoup de trafic sortant, du coup un des serveurs entre dans le cluster, celui-ci décharge les autres au fur et à mesure. Cette opération n'est pas instantanée, cela prend généralement 1 heure pour que tout soit stable. Là il reste encore un ou deux serveurs très sollicités qui vont peu à peu être dispo.
Pour ce qui est du 1er ralentissement, cela était dû à un serveur manquant sur le cluster, le second qui a suivi de 17h50 à 18h45 c'était un trop plein de mail. Je n'ai pas investigué plus longtemps puisque la file semblait se vider.»
Merci à eux. |
Le 03-01-2007 à 17h39 | Grégoire Métral | Le serveur web est reparti en prod, mais il y a un afflux de mail sortant. Spam? Voeux de bonne année? Azuria est sur le coup. |
Le 03-01-2007 à 16h06 | Grégoire Métral | Azuria nous signale l'arrêt d'un serveur web, d'où quelques ralentissements. Redémarrage en cours et diagnostic. |
Le 28-12-2006 à 02h19 | Esther | Azuria nous prévient qu'une opération de maintenance sur les liens intersites est prévue cette nuit entre 1:00 et 2:00 du matin (jeudi 28 décembre).
Elle va entraîner une coupure de notre réseau qui ne devrait pas durer plus d'un quart d'heure. |
Le 19-12-2006 à 16h07 | Nico | Arrêt du filer dans quelques minutes... pour tests matériel notamment |
Le 19-12-2006 à 15h00 | Grégoire Métral | Le test de n'ouvrir la plate-forme aux mails sortants qu'à certains moments (et les envoyer par paquets), ne semble pas concluant -- beaucoup d'effets de bord indésirables. Nous avons demandé à Azuria de rétablir la fonction en permanence, ce qui aura pour conséquence de ralentir le tout au moment des grands envois en masse (mailings et spams). |
Le 19-12-2006 à 11h01 | Rodéric | La fonction mail de php a été désactivé provisoirement. Cela permet de voir si c'est cela qui plombe la plateforme (relais spam).
Même les souscription sont bloqué !
Nous alons voir comment concilier la chevre et le choux...
:-/
Coopérativement
Rodéric |
Le 18-12-2006 à 17h39 | Grégoire Métral | Lenteurs: le retour... :-( Azuria est sur le coup. La seule vraie manière de régler cette affaire, c'est de désactiver la fonction mail() de PHP: fini les formulaires (troués) et les mailings en masse (Cf. les "6000 abonnés" avoués sur les forums...). Tant que tout passe par le filer, ça posera des problèmes.
Alors en attendant, on serre les fesses et on attend la nouvelle plate-forme. Azuria ne nous a pas encore donné les clés pour faire la bascule :-/ |
Le 16-12-2006 à 11h20 | Nico | A priori fonction mail ok aujourd'hui... peut-être question de retard dans la distribution ? |
Le 15-12-2006 à 18h02 | Nico | Il semble y avoir des problèmes sur l'envoi de gros mailings. Nous pensons à un effet induit par la manip hier d'azuria, nous voyons avec eux |
Le 14-12-2006 à 23h21 | Greg | Azuria a bossé sur le serveur MySQL, qui mettait beaucoup de temps à répondre. Ce soir, le temps de réponse est tout à fait correct. Il faudra vérifier en pleine charge demain durant la journée. |
Le 13-12-2006 à 18h09 | Greg | FTP up. |
Le 13-12-2006 à 17h45 | Greg | FTP down. Azuria est prévenu.
[C'est quand même lassant de se répéter...] |
Le 11-12-2006 à 20h41 | Greg | Un chouia mieux au niveau des performances. Azuria, averti dans l'après-midi, a probablement mis ses pattes là-dedans. Mais nous n'avons pas (encore) de retour sur l'intervention. |
Le 11-12-2006 à 16h39 | Greg | Les 4 serveurs web ont eu un gros creux vers 15h45, mais semblent s'être rétablis. Par contre, la plate-forme est très ralentie (sites dynamiques et statiques). Nous enquêtons. |
Le 11-12-2006 à 15h43 | Greg | Lenteur ou serveurs web down? Je n'ai plus accès aux stats pour vérifier... Des nouvelles prochainement. |
Le 06-12-2006 à 12h42 | Greg | Les lenteurs, après s'être résorbées quelques jours, semblent repartir. Un serveur Apache s'est arrêté, mais le problème, selon Azuria, semble venir du filer. Ils sont sur le coup. |
Le 01-12-2006 à 13h28 | Rodéric | Beaucoups de lenteurs...
:-(
On regarde, Azuria est prévenu....
:-/ |
Le 30-11-2006 à 11h06 | Greg | Une adresse hébergée par Ouvaton recevait des milliers de messages (bounces ou spam?). La gestion DNS a été suspendue en attendant que le problème soit réglé. La file d'attente s'est résorbée et il semble que tout se passe mieux actuellement. On était monté à 1500 mails/min., c'est redescendu dans les 300 mails/minute. |
Le 29-11-2006 à 12h11 | Greg | Retard dans les mails. Le MX1 se remplit et prend beaucoup de temps à passer le relais au MX2 (qui lui a l'air de très bien fonctionner). On a demandé à Azuria de nous faire un topo sur cette histoire et de réparer. |
Le 27-11-2006 à 21h05 | Greg | FTP up. |
Le 27-11-2006 à 20h21 | Greg | FTP dans les choux depuis env. 19h30. Azuria est prévenu: nous attendons. |
Le 24-11-2006 à 12h21 | Rodéric | Azuria a réparé, merci.
On vas regarder de plus pret les tenants et les aboutissants de cette panne.
Coopérativement
|
Le 24-11-2006 à 11h47 | Rodéric | Le web est innacessible, Azuria est sur le coup. Un probleme de routage a premiere vue.
Le mail est OK, le ftp remarche depuis hiers....
+ d'info dès qu'on les as...
:-/
Coopérativement
Rodéric |
Le 23-11-2006 à 20h23 | Nel | Un peu de nouvelles d'azuria, ils auraient tenté de rebooter la machine qui est en train de vérifier son disque et donc indisponible |
Le 23-11-2006 à 17h44 | Nel | FTP down, la machine ne réagit plus, azuria est prévenu |
Le 21-11-2006 à 15h12 | Nel | Mysql up! J'ai pas encore les détails |
Le 21-11-2006 à 14h54 | Nel | Mysql down! Azuria est prévenu à priori tout est par terre site avec base de donnée et ml. |
Le 10-11-2006 à 08h22 | Greg | Problèmes de lenteur web signalés ces derniers jours. Difficile de déterminer la cause étant donné que ce n'était pas toujours reproductible. Il semble que quelques-uns des serveurs s'étaient arrêtés pour une raison inconnue. Nel a contacté Azuria qui en a redémarré trois: ça devrait aller mieux. |
Le 26-10-2006 à 16h53 | Esther | L'accès web dysfonctionne à nouveau. Azuria a reçu immédiatement l'info sur plusieurs canaux.
Nous sommes sur le coup...
aussitôt que nous avons plus d'informations... elles seront ici.
Azuria, Antony a été sur le coup très vite. filer 1 tousse. |
Le 26-10-2006 à 15h12 | Esther | L'accès web disfonctionne à nouveau. Azuria a reçu immédiatement l'info sur plusieurs canaux.
Nous sommes sur le coup...
aussitôt que nous avons plus d'informations... elles seront ici. |
Le 25-10-2006 à 11h23 | Rodéric | Azuria s'est réveillé et a redémarré le serveur Mysql...
Normalement tout devrait être OK.
:-/
Coopérativement |
Le 25-10-2006 à 01h55 | Nel | Et comme une bonne semaine en suit toujours une autre voici la bonne nouvelle de la soirée. Mysql est down, le server respire encore mais le service ne répond pas, tout ca très proprement, c'est un peu bizarre, c'est comme si il était juste arrêté.
Azuria est prévenu, deux options soit c'est rien du tout soit c'est une panne matérielle. |
Le 22-10-2006 à 03h20 | Esther | Azuria a fini par intervenir sur notre plateforme dans la nuit de vendredi à samedi.Il semble d'après mes test que la queue des mails soit enfin résorbée ce soir.
|
Le 20-10-2006 à 19h56 | Greg | ws8 est reparti vers 18h50. Merci Robert de me l'avoir fait remarquer! Au niveau des performances, ça semble s'améliorer grandement... |
Le 20-10-2006 à 17h27 | Greg | Azuria a bougé! Voici leur message:
«Nous avons rebooté les deux machines. Vous allez peut-être encore constater des lenteurs mais cela vient du fait que le nouveau loadbalancer (serveur Iron) continue à orienter les requêtes vers les mêmes serveurs.
Il est à noter qu'auparavant, la machine qui se chargeait du loadbalancing était NB0, mais à présent il s'agit d'un serveur Iron. Il est plus performant sur certains points mais il a un désavantage, qui est que chaque utilisateur est orienté vers le même serveur par le loadbalancer pour des raisons de gestion de session. Donc il se peut que vous soyez "accroché" à un serveur surchargé sans vous rendre compte que les autres serveurs fonctionnent. C'est pour cela que nous avons été étonnés hier car de notre côté les sites fonctionnaient.
Quoiqu'il en soit, cela ne change rien au fait qu'il faut comprendre pourquoi ces deux machines se sont éteintes. Nous n'avons pas trouvé de trace dans le fichier log, et nous allons regarder pour voir ce qui a pu se passer.»
Personnellement, je ne trouve pas que la différence s'en ressente beaucoup. D'ailleurs, ws8 semble être retombé après quelques minutes seulement. Quant au mail, il semble encore un peu retardé: mêmes causes? Il semble qu'il y a eu un gros pic pendant la nuit: peut-être la queue se vide lentement... |
Le 20-10-2006 à 08h27 | Greg | Deux serveurs web (ws7 et ws8) se sont arrêtés hier dans l'après-midi. Plusieurs appels au secours ont été lancés auprès d'Azuria, sur la liste de communication ainsi qu'à l'entreprise elle-même. Aucune réponse à cette heure. |
Le 19-10-2006 à 16h37 | Nel | Comme prévu même problème qu'hier depuis 15h les serveurs web sont à bout de souffle, 800 de load, il y a un point de congestion et on attend qu'Azuria se décide à utiliser ses accès exclusifs aux machines pour regarder ce qui bloque.
Azuria n'a pas encore daigné répondre à nos solicitations sur le problème. |
Le 18-10-2006 à 21h16 | Nel | Ralentissement sur le web de 16 à 19 hier et aujourd'hui la source est encore inconnue et il est probable que ca va recommencer demain. Azuria est prévenu. |
Le 07-10-2006 à 04h46 | Esther | Première page du site avec le nouveau logo d'Ouvaton |
Le 06-10-2006 à 23h41 | Nel | Voilou une nouvelle tête pour ouvaton.info, réalisé par Vincent Fleuranceau que certains d'entre vous ont sans doute croisé sur admin-panel ou sur les newsgroup.
Librement inspiré par la nouvelle charte graphique d'ouvaton.
Merci à lui. |
Le 05-10-2006 à 03h22 | Nel | Depuis le w-e dernier il y a un retard de quelques minutes à 2h dans la livraison des mails.
La faute à une enorme quantité de mail qui cherche à être envoyé Graph de mail envoyé.
Mais qu'elle est la source d'expédition de ces mails (site hacké, autorépondeur qui boucle, bounce incontrolé...?) me direz-vous, et bien c'est que l'on demande à nos infogérants absent qui brillent par leur silence. Un simple coup d'oeil suffirait, dommage.
|
Le 03-10-2006 à 11h42 | Greg | Toujours des problèmes mail non résolus, avec de gros pics dans la file d'attente. On attend qu'Azuria réagisse...
Graphe de la file d'attente |
Le 02-10-2006 à 23h30 | Nel | Voilà la migration est effectuée, ouvaton.info ns1.ouvaton.org ns2.ouvaton.net et mx2.ouvaton.net sont sur un serveur tout neuf pas loin de redbus.
Prochaine étape migration des newsgroups, merci à Jérome qui a migré le serveur quelques heures avant qu'eloïse s'éteigne pour la dernière fois de sa longue vie (depuis les débuts d'ouvaton quand même). |
Le 02-10-2006 à 12h42 | Nel | migration du mx2/ns2 du Téléhouse vers un autre datacenter dans l'après-midi
99,99% des coopérateurs n'ont rien à faire et ne remarqueront rien.
Résultat les adresses ip des mx2 et ns2 vont changer. Pas de panique les deux vont fonctionner pendant un moment et aucune action n'est à effectuer pour ceux qui utilise les dns ouvaton.
Pas de problème non plus pour ceux qui ont donné l'adresse ip à leur registrar (genre gandi) ca se met à jour tout seul.
Et enfin pas de problème au niveau de vos panels, on se charge de mettre à jour.
Donc qui a quelque chose à faire ?
Ceux qui gère leur dns eux même hors ouvaton devrons changer l'adresse ip du mx2 s'ils l'ont hardcodé mais c'est peu probable. Ca n'a rien d'urgent vous pouvez le faire dans la semaine. Ca concerne 0.01% des coopérateurs donc surement pas vous.
La nouvelle ip:
194.88.156.84 => NS2 / MX2 |
Le 01-10-2006 à 16h16 | Nel | Bon il n'y a pas eu de catastrophe juste un gros flot de mail et un retard dans la diffusion.
Tout semble ok depuis hier. |
Le 30-09-2006 à 12h02 | Nel | Pas de nouvelles d'azuria.
Certains mails arrivent avec du retard, notamment au niveau des ML, d'autres non. Toujours une grosse activité.
|
Le 29-09-2006 à 21h22 | Nel | On dirait qu'un problème se prépare au niveau des mails, les mails sont en retard, signe d'une fil d'attente trop pleine. Pourtant sur la journée on est à 360 mail/min ce qui est beaucoup mais pas énorme.
Azuria est prévenu. More to come... |
Le 21-09-2006 à 20h31 | Nel | Message cryptique décrivant ce que pourra faire la prochaine version de php:
Les options de compilation proposée des libs pour la nouvelle version de php 4.4.4 seront
'--with-openssl' '--with-zlib' '--enable-bcmath' '--with-bz2' '--enable-calendar' '--with-curl' '--with-imap' '--with-cdb' '--with-inifile' '--with-dom' '--enable-exif' '--enable-ftp' '--with-gd' '--with-mcal=/usr' '--with-mcrypt' '--with-kerberos' '--with-imap-ssl' '--with-mhash' '--with-mime-magic' '--with-mysql' '--with-ncurses' '--with-snmp' '--enable-sockets' '--with-expat-dir=/usr' '--enable-sysvmsg' '--enable-sysvsem' '--enable-sysvshm' '--with-xmlrpc' '--with-iconv' '--enable-xslt' '--with-zip' '--enable-memory-limit' '--with-jpeg-dir=/usr' '--with-tiff-dir=/usr' '--with-iconv' '--disable-debug' '--disable-rpath' '--enable-inline-optimization' '--with-freetype-dir=/usr' '--enable-soap' '--with-regex=system' '--with-xmlrpc=shared' '--with-layout=GNU' '--enable-dio' '--enable-xslt' '--with-dom' '--with-dom-xslt' '--with-dom-exslt' '--with-xslt-sablot' '--enable-mbstring'
Si vous souhaitez d'autres fonctionnalités vous pouvez nous en faire part sur le forum tech.aide.
|
Le 21-09-2006 à 01h08 | Rodéric | La mise à jour Php est reporté au 29 septembre....
:-/
Coopérativement |
Le 20-09-2006 à 00h50 | Rodéric | Upgrade de php prévue prochainement. Nous passerons de la version 4.4.2
à la 4.4.4
Selon Azuria, ce pourrait être samedi 23 septembre (ou un peu plus tard...)
Pour plus de détails sur les changements entre ces deux versions :
http://www.php.net/release_4_4_4.php
Cooopérativement
(et texte © Nico...)
;-) |
Le 17-09-2006 à 15h57 | Esther | Attention : certaines bases ont dû être renommées (à cause de lettres
accentuées dans le nom des bases)
Si vous avez besoin d'aide allez sur tech.php-mysql |
Le 17-09-2006 à 08h29 | Rodéric | Cette nuit nous sommes passé en Mysql 4.1.
Normalement cela devrait améliorer nos sites dynamiques....
Samedi prochain, upragrade Php...
:-) (merci Azuria)
Coopérativement |
Le 16-09-2006 à 23h45 | Rodéric | Mise à jour programé du servur MySQL :
La mise a jour c'est bien passé mais il y a plus de 500.000 tables à vérifier à l'issue de la mise à jour, c'est ça qui prend le plus de temps...
D'autre part, certaines bases ont dû être renommées (à cause de lettres accentuées dans le nom des bases), ce qui retarde le processus.
Voilà les infos qu'on a à l'heure qu'il est.
Coopérativement
|
Le 09-09-2006 à 20h51 | Esther | La Plateforme est lente, il y aurait encore des problèmes de sites squatés pour faire du spam.
Nous insistons au près d'Azuria pour que cette situation ne perdure pas.
Chacun peut aussi se responsabiliser en mettant ses logiciels à jour... les Dotclear et phpbb... vous n'utilisez plus vos installations.... mais d'autres les utilisent.
allez supprimer les trackball qui sont du spam. |
Le 03-09-2006 à 16h28 | Alexis | Toutes les bases sont remises en place. En cas de problème persistant, merci de contacter admin-panel. |
Le 03-09-2006 à 13h23 | Alexis | Quelques bases de données viennent d'être supprimées par erreur au cours d'un nettoyage des données orphelines (comptes supprimés sans que les données le soient). Nous sommes en train de remettre en ligne la sauvegarde de ce matin. Toutes nos excuses aux personnes concernées. |
Le 29-08-2006 à 23h22 | Alexis | Des messages anciens (jeudi, vendredi, samedi) commencent à être distribués, il y a encore 400 000 messages de ces jours-là qui ont été mis de côté et seront réinjectés dans le circuit demain, lorsque la file en cours qui est à 62 000 mails sera épuisée. |
Le 29-08-2006 à 13h45 | Rodéric | Azuria viens de finire son intervention.
Resultat : 2 500 000 mails (environ) acumulé sur les differentes queues !!!!
Les boucles fautives ont été supprimées et il faudras minimum 6h pour digerer tout.
Les mails en partances d'Ouvaton (SMTP) sont eux aussi retardées.
Normalement quasi aucun mail n'est perdu (au pire 100 sur les |