DATEADMINDESCRIPTION
Le 12-05-2008
à 17h17
PhilippeOups !

Un clic malencontreux à faire partir, il y a quelques minutes, un message à tous les coopérateurs, alors qu'il n'y avait pas lieu.

Désolé.
Ajout : je m'aperçois que c'est trois messages que j'ai laissé passer ainsi. Je suis TRES désolé.
Le 30-04-2008
à 13h46
PhilippeLenteur de messagerie

La nuit dernière, les serveurs de messagerie ont connu un problème et 200.000 messages se sont accumulés.
Pour en permettre la diffusion, l'anti-spam a été provisoirement désactivé.
La situation devrait redevenir normal en cours d'après-midi.
Le 28-04-2008
à 06h42
PhilippeMessage d'alerte erroné (bis)

Même problème que la semaine dernière. Ne pas tenir compte du message d'alerte concernant la bande passante envoyé cette nuit.

Et les Shadocks pompaient ...
Le 23-04-2008
à 08h20
PhilippeInterruption Gloux

La nuit dernière, la machine Gloux a eu une défaillance.
Le service vient d'être relancé et fonctionne à nouveau.
Le 21-04-2008
à 07h03
PhilippeMessage d'alerte erroné

Cette nuit vers 01:00 est parti un message automatique pour alerter des dépassements de bande passante (au-delà des 2 Go du pack de base).
Malheureusement il est parti, par erreur, à de nombreux panels qui n'étaient pas concernés.
Désolé de ce couac.
«Moins ça marche, plus ça a de chances de marcher,» auraient dit les shadock ! ;-)
Le 06-04-2008
à 09h37
PhilippeListes de diffusion

Les listes de diffusion connaissent des difficultés sporadiques depuis hier après-midi (samedi 5 avril). L'infogérant essaye d'apporter solution.
Le 02-04-2008
à 14h45
Ouvaton[mysql] Vendredi (à une heure non encore déterminée) il va y avoir un déménagement d'un 1/4 de baie qu'on a encore chez notre ancien prestataire vers notre baie actuelle.

Cela ne devrait impacter que les coopérateurs qui utilisent la base mysql-vip2 qui sera indisponible le temps du déménagement. On va également retirer 2 nodes web du cluster mais ca continuera à fonctionner, ca devrait juste entrainer une petite baisse de perf du web.
Le 02-04-2008
à 12h22
Ouvaton[web] c'est reviendu, je penche pour un trou réseau à un endroit du reseau, je contacte le fournisseur de bp pour savoir si c'est à son niveau ou si c'est le reseau wanadoo/orange qui a loosé.
Edit: C'est notre fournisseur de bp qui a fait un changement de fournisseur sans nous prévenir ce qui a entrainé 30 minutes de perturbation le temps que les routeurs se mettent à jour.
Le 02-04-2008
à 12h10
Ouvaton[web] Il se passe un truc en ce moment, pas encore compris quoi mais depuis orange je n'arrive plus à accéder à la plateforme alors que ca fonctionne sur une ligne free. Sans doute un soucis réseau. Je me renseigne, le monitoring montre que je ne suis pas le seul dans ce cas.
Le 28-03-2008
à 12h34
Ouvaton[web] Un petit dessin vaut mieux qu'un long discours, voilà l'effet du blacklistage des fichiers tb.php

graph cacti du filer après blacklistage des trackbacks dotclear graph cpu mysql après blacklistage des trackbacks dotclear graph traffic node1-1 après blacklistage des trackbacks dotclear graph cpu node1-1 après blacklistage des trackbacks dotclear
Le 27-03-2008
à 23h47
Ouvaton[web] Un (ou plusieurs) botnet s'attaque aux trackbacks de dotclear sur ouvaton, ce n'est pas nouveau mais ca a pris des proportions insupportables, la journée d'aujourd'hui a été calamiteuse et c'est très loin d'être la première fois. Les coopérateurs possesseurs de dotclear se recoivent des surfacturations énormes du aux 100aine de mega de spam qui s'accumulent dans leur base et la plateforme est pliée en 2 fréquemment à cause de ca.

Coté serveur nous n'avons pas de solution simple pour déméler le vrai trackback du trackback de spammeur, et nous n'avons pas vocation à le faire. Aussi une intervention virile a eu lieu: les trackbacks sur dotclear sont maintenant impossibles. Tous les accès aux fichiers tb.php ont été supprimés.

L'effet immédiat a été la diminution par 4 de tous les indicateurs de la plateforme CPU, load, traffic interne, I/O sur le filer, requete mysql ... La plateforme est de nouveau praticable pour l'ensemble des coopérateurs.

Désolé pour les coopérateurs impactés. A moins qu'une solution globale et efficace ne soit mise en place, l'accès ne sera pas réactivé. Libre à vous de renommer vos fichiers de trackbacks si vous souhaitez conserver cette fonctionnalité.
Le 26-03-2008
à 19h08
Ouvaton[ssl] Les nouveaux certificats sont en ligne. Merci Jerome.
Le 26-03-2008
à 15h39
Ouvaton[ssl] La coopérative e-toiles a été d'une rapidité impressionnante, elle a transmis le mail de vérif et on est pret à installer le certificat pour *.ouvaton.coop. Yapluka
Le 26-03-2008
à 15h11
Ouvaton[ssl] Les certificats ssl sont arrivés à écheance la semaine dernière. En plus de vous envoyer des messages d'erreur à l'utilisation de gloux ou du webmail ca nous pose un gros problème au niveau de la validation des paiements CB qui doivent se faire manuellement, ce qui entraine des effets indésirables (des coopérateurs qui viennent de mettre à jour leur cotisation recoivent des rappels de paiement).

En raison du changement de prestataire qui avait tout géré la dernière fois sur sa propre interface, il a fallut tout recommencer à zéro. Bref le certificat *.ocsa-data.net est prêt. En revanche on a un soucis avec *.ouvaton.coop. La validation est partie chez le registrar du domaine (e-toiles.coop), on est en train de prendre contact avec eux pour tracer l'email mais ca va nous faire perdre du temps.

Rien n'est jamais simple ...
Le 25-03-2008
à 16h14
Ouvaton[gloux] La création d'espace web était défaillante depuis quelques jours suite à une maj de gloux. C'est maintenant fixé.
Le 25-03-2008
à 09h30
Ouvaton[web & messagerie] C'est revenu après reboot, fin de l'incident
Le 25-03-2008
à 01h18
Ouvaton[web & messagerie] Le load balancer a l'air d'avoir un problème depuis une heure résultat le web et les emails sont morts. On attend des nouvelles de l'infogérant. Normalement on a un lb en failover donc ca ne devrait pas (n'aurait pas du) durer.
Le 24-03-2008
à 09h12
Ouvaton[web] Un serveur web (node1-2) a crashé ce matin, rebooté à distance il fait sa vérification du système de fichier et est reparti il y a quelques minutes.

Le 23-03-2008
à 21h03
PhilippeCréation d'espaces Web

Il semble qu'il y ait un bug qui empêche la création de nouveaux espaces Web en ce moment.
Il est probable qu'il faudra attendre au moins mardi avant qu'un remède soit apporté.
Désolé.
Le 23-03-2008
à 12h29
EstherDepuis jeudi il y a un problème de dialogue entre la Banque et Gloux.

Vos paiements par Carte Beue sont effectifs, enregistrés, mais Gloux ne reçoit pas le signal qui fait que la facture est marquée " payée".

Vous continuez donc à recevoir des rappels de paiements.. Ne vous inquiétez pas, dans le courant de la semaine, la correction va être faites et vos factures seront considérées par Gloux comme payées.
Le 23-03-2008
à 12h16
EstherLes certificats de sécurité sont en cours de renouvellement sur la plateforme.

Votre navigateur lance la sirène d'alerte quand vous vous connectez, cliquez pour dire que vous avez même pas peur, et continuez... vous accéderez aux pages souhaitées sans risque.
Le 21-03-2008
à 17h30
Ouvaton[web] le site a été repéré et coupé, le web fonctionne a nouveau normalement depuis 12h.
Le 21-03-2008
à 11h03
Ouvaton[web] Ralentissement ce matin, diabolocom cherche le site qui est la cause.
Le 21-03-2008
à 10h03
Ouvaton[services] Tous les certificats ssl ont expirés. En raison du changement de prestataire il faut recommencer la procédure from scratch. Je vais essayer de m'en occuper ce w-e.
Le 11-03-2008
à 18h01
Ouvaton[web] Node1-3 est également reparti, les locks sur le filer empêchaient de monter le nfs au boot de la machine, et la rendait inaccessible. La plateforme est donc à nouveau complète.
Le 11-03-2008
à 17h58
Ouvaton[messagerie] Le serveur node2-1 a été réinstallé. Il devrait être remis en live d'ici une petite heure. L'antispam va être réactivé.
Le 11-03-2008
à 17h57
Ouvaton[web] Il y a eu un incident sur le web qui était indisponible une partie de l'après midi. Il s'agissait de multiple lock au niveau du filer qui ont complètement bloqué l'accès aux fichiers. C'est reparti.
Le 11-03-2008
à 09h48
Ouvaton[messagerie] Roderic a installé le disque hier soir dans node2-1, y a plus qu'à réinstaller la machine, et on pourra réactiver l'antispam/antivirus.
Le 10-03-2008
à 20h15
Ouvaton[php] D'ici une heure squirelmail devrait a nouveau pouvoir envoyer des mails, node2-1 était hardcodé dans la conf, ce n'est plus le cas

Le fonction mail() de php ne fonctionnait plus car le firewall de node2-2 était trop restrictif, c'est réparé également.

Bref les problèmes de mail php depuis la chute de node2-1 devraient maintenant être réglés.
Le 10-03-2008
à 14h47
Ouvaton[web] on a perdu un node, il a crashé, a été rebooté à distance mais ne reprend pas son service. A priori ca sent le disque crashé. Le web tourne donc avec un serveur de moins.
Le 09-03-2008
à 14h59
Ouvaton[php] On nous informe que la fonction mail() de php n'expédirait plus de mail. On vous informe dès que c'est revenu.
Le 07-03-2008
à 15h06
Ouvaton[messagerie] Dell a été prévenu hier, le serveur est en garantie J+1 donc on va devoir attendre lundi pour la livraison du disque. Ensuite un voyage au datacenter et il restera la réinstallation. Donc la réactivation de l'antispam est toujours prévue pour la mi-semaine prochaine.
Le 06-03-2008
à 20h49
Ouvaton[messagerie] node2-1 est un serveur mono disque dur, le disque est mort, plus de serveur. Il faut contacter Dell, recevoir le disque, aller en baie remettre le disque, que diabolocom réinstalle le serveur. Ca veut dire pas avant la mi-semaine prochaine.

En attendant node2-2 n'est pas capable de tenir la charge tout seul, l'antispam dans les boites est donc désactivé, il n'y a plus de mail en queue donc la situation est sous controle mais en fonctionnement dégradé (plus d'antispam/antivirus).
Les antispams / antivirus sont maintenus en sortie pour éviter le blacklistage.

Il est possible qu'on ait perdu quelques dizaine de mail (sur les 10aines de millier par heure) qui étaient sur le disque dur du node au moment de la rupture mécanique mais comme en mode normal les serveurs tournent en flux tendu la plupart sont des mails qui trainait dans la queue en attente de réponse smtp valide.

Les boites mails ne sont pas impactées, ca tourne encore sur une autre machine (filer2).

Bref en résumé:
- vous allez recevoir du spam pendant une petite semaine, je vous conseille d'éviter les catch all
- à part un petit ralentissement il y a une ou deux heure dans la délivrance de mail (avant qu'on coupe l'antispam) vous n'avez pas été impacté
Le 06-03-2008
à 16h31
Ouvaton[messagerie] On vient de perdre un serveur de mail, il ne redémarre pas via APC, diabolocom est parti voir sur place ce qu'a le serveur.

La plateforme mail ne tourne plus que sur un serveur, la charge implique que certain mail vont passer en queue au lieu d'être distribué immédiatement. Pour l'instant on garde l'antispam allumé et on ne touche à rien. Suivant l'état du serveur mail qui est tombé à savoir s'il peut reprendre sa place ou s'il s'agit d'une casse machine on avisera.

L'information c'est donc que les délais de diffusion mail risque de commencer à s'allonger mais que pour l'instant la situation est sous controle.


Le 28-02-2008
à 16h25
Ouvaton[web] Grosse grosse charge anormale sur le web, le monitoring est au rouge. L'investigation est en court.
Le 28-02-2008
à 03h18
Ouvaton[mysql] L'intervention est terminée depuis 1h du matin, la réplication est rétablie
[filer] Puisqu'une partie non négligeable des sites étaient down en raison de l'intervention et que l'infogérant était debout, un test a été improvisé afin de voir si la charge en écriture sur le filer était lié ou pas au web tout simplement en coupant le web. Et effectivement le nombre d'écriture par seconde passe de 100/s à 0 en quelques instants. Ca ne veut dire qu'une chose, c'est qu'on a pas d'élément indéterminé qui perturberait le web, la charge massive sur le web est directement lié à l'exploitation de la plate-forme.

Merci à Michael de Diabolocom pour avoir veillé tard :)
Le 27-02-2008
à 22h57
Ouvaton[mysql] L'intervention planifié sur mysql1 est en cours. Les bases de données sont stoppées, les sites web utilisant mysql1 sont down. La copie de base de donnée devrait durer 3 heures.
Le 27-02-2008
à 15h38
Ouvaton[web] un node s'est écroulé sous la charge, diabolocom vient de le relancer
Le 27-02-2008
à 15h27
PhilippeSites Web très difficilement accessibles en ce début d'après-midi.
L'infogérant vient de relancer Apache sur l'un des serveurs (node1-1) et cherche à trouver ce qui s'est passé.
Le 22-02-2008
à 14h45
Ouvaton[webmail] C'est réglé, le problème était dans la migration dns d'hier une typo dans un fichier de zone. Le truc c'est que ca marche mais ca marche pas :). Il faut attendre la propagation des dns, d'ici une erreur ca devrait être bon.
Le 22-02-2008
à 14h33
Ouvaton[webmail] bon on a pas corrigé le bon problème en fait le webmail arrive sur gloux, doh!. Il y a eu une manip dans les vhost hier pour préparer le site de gloux et ca du casser le webmail. Ca devrait être réglé dans l'heure.
Le 22-02-2008
à 13h44
Ouvaton[webmail] Le webmail est de retour, d'après Jerome une ip faisait un dos sur le ssl ce qui le rendait indisponible.
Le 21-02-2008
à 17h48
Ouvaton[dns] En cours de migration dns pour ocsa-data.net, on réutilise a partir de maintenant nos propres serveurs dns.

On passe de
ocsa-data.net. 1200 IN NS ns4.eiole.net.
ocsa-data.net. 1200 IN NS ns3.eiole.com.

a

ocsa-data.net. 172689 IN NS admin2.ocsa-data.net.
ocsa-data.net. 172689 IN NS admin1.ocsa-data.net.

Il ne devrait pas y avoir de problème, ca a l'air de bien se passer.
Le 20-02-2008
à 15h41
Ouvaton[mysql] Une intervention de maintenance planifiée le 27 février 2008 à 23h sur le serveur mysql1 afin de rétablir la réplication temps réel.

Il va falloir copier toutes les bases donc l'interruption de service devrait durer dans les 3 heures.

Le serveur mysql2 ne sera pas concerné par cette opération.

En résumé du 27 février de 23h au 28 février 2h du mat, le serveur mysql sera indisponible.

Aucun autre service ne sera impacté.
Le 15-02-2008
à 23h12
Ouvaton[filer1] Cette histoire de filer va se terminer plus mal que prévu. Il semble qu'un nombre de panel (moins d'une dizaine pour l'instant) n'ait pas été backupé.

Cela se caractérise par un panel dont tous les sites web retourne une erreur 404 comme s'il n'y a avait pas de fichier (ce qui est le cas).

Il semblerait qu'en raison de la taille des disques qui empeche un backup global, le système de sauvegarde soit basé sur la présence d'une compte ftp global qui serait effacé ou absent sur certain panel.

Nous sommes évidemment navré pour les malheureux qui vont subir ce couperet. Globalement il faut contact admin-panel (at) ouvaton.coop si vous n'avez plus accès aux ftp afin de réuploader vos fichiers :/

Le modèle de sauvegarde va être modifier pour éviter que ca se reproduise.
Le 14-02-2008
à 10h45
Ouvaton[filer1] La reconstruction RAID est maintenant terminée. La situation est donc revenue à la normale
Le 14-02-2008
à 10h36
Ouvaton[filer1] Retour à la normal depuis 8h30 ce mati, tout devrait fonctionner normalement. La reconstruction de l'array RAID en est à 97% ca devrait être fini d'ici une grosse demi heure.
Le 13-02-2008
à 21h13
OuvatonUpdate: [filer1] le scénario catastrophe.

- Il y a quelques jours un disque du filer est detecté comme foutu. Pas de drame on est en RAID 5 donc on retire le disque et on le remplace.

- L'array RAID se reconstruit ce qui bouffe de la ressource disque, donc lenteur

- Jerome essaye d'optimiser le filer en testant un ram disk dans un coin du server

- Premier Kernel Panic, un bug non prévu au niveau du kernel crash la machine

- Le server ne reboote pas complètement, impossible de reprendre la main à distance, après un déplacement sur place de l'infogérant il s'avère que le BIOS attend une confirmation clavier pour finir son boot (GRRRRRRR ...)

- Une vérification disque se lance (fsck) et consomme trop de ressource pour pouvoir supporter en plus le web, tous les services sont arrêtés en attendant la fin du fsck (1h environ)

- De nombreuses erreurs sont relevés sur le system de fichier suite à l'arrêt brutal

- Tout est rallumé ca marche quelques minutes

- Nouveaux kernel panic au niveau du système fichier cette fois, le FS est endommagé (corruption des méta données de la partition qui contient les données des coopérateurs concernant le web)

- Tout est arrêté car le FS crash la machine, il est décidé de restaurer le précédant backup, ca va être très long car il y en a pour quelques centaines de Go

- D'ici demain au petit matin la restauration devrait être terminé, il va y avoir un time warp de quelques heures, c'est à dire que la sauvegarde qui va être restauré sera celle de la soirée précédante et donc que les fichiers uploadés dans la journée sont à réuploader. (cela n'impacte que le FTP web, pas de problème mail ...)

Tout service lié au web est down (webnews, les sites, le ftp ...)
Le reste continue à fonctionner (ML, mail ...)
Le 13-02-2008
à 17h04
PhilippeMauvaise nouvelle : le filer ne tient pas.
Il faut le relancer, reformater la partition, puis restaurer le backup.
Cela va prendre plusieurs heures. Remise en route probable en milieu de nuit.
Désolé.
Le 13-02-2008
à 15h53
PhilippeLe filer n'a pas tenu la charge suite au reboot.

Une vérification disque a révélé de nombreuses erreurs. Le système de fichiers a l'air mal en point.

L'infogérant est au chevet du malade et s'active pour un retour à la normale. Nous vous tenons informés dès que possible.
Le 13-02-2008
à 14h01
EstherLes lenteurs constatées sur la plateforme sont dues à la reconstruction du disque qui a été changé hier soir sur Filer.

Pour le moment il en est à 68% et la reconstruction devrait être terminée ce soir.... c'est long cette opération !

donc on serre les dents sur un mode zen et ensuite on donne du temps au Filer :-)
Le 13-02-2008
à 01h06
Ouvaton[filer1] un disque avait cramé depuis quelques jours et le RAID fonctionnait sans filet. Roderic vient de mettre un nouveau disque, l'array se reconstruit actuellement.
Le 04-02-2008
à 21h21
EstherC'est réparé... petite erreur suite à manipultation.
Le 04-02-2008
à 20h24
EstherLes serveurs de mails rencontrent des difficultés.. notre infogérant vient d'être informé.
Le 04-02-2008
à 00h33
Esthervu les graphes, c'est fini depuis un bon moment... tout est reparti depuis 21 heures.
Le 04-02-2008
à 00h20
EstherPanne de plusieurs serveurs web... vu sur Nagio par Robert... et depuis rien de neuf.

Je vous tiens au courant si j'ai des infos.
Le 28-01-2008
à 16h48
PhilippeCe matin entre 10:30 et 11h:00 a eu lieu une interruption de peu de durée. Désolés. Tout est rentré dans l'ordre.
Le 24-01-2008
à 18h51
Ouvaton[sympa] La nouvelle release de stable sympa sur freebsd se faisant désirer. Jerome a commité 2 patchs sur notre version pour fixer des trucs énervants:

Merci à l'équipe de Sympa.
Le 23-01-2008
à 13h51
Ouvaton[dead] ... or alive. Tous les services sont de nouveau up. Si pour vous quelque chose ne marchait il y a 15 minutes et ne marche toujours pas maintenant, n'hésiter pas à le signaler sur les news.
Le 23-01-2008
à 13h46
Ouvaton[dead] Not dead but bien raide. Jerome a réussi à reprendre le controle d'un APC et le reboot a été fait à distance. Plus besoin d'intervenir en baie donc tout devrait revenir plus vite. Ca commence à remonter, j'ai pas encore tous les détails sur qu'est-ce qui a été fait et comment une plateforme répliquée de tous les cotés peut avoir un SPOF aussi énorme. Plus d'info dès que c'est dispo, pour l'instant l'objectif est de remonter les services.
Le 23-01-2008
à 13h28
Ouvaton[dead] tout ouvaton dead sauf les dns, suite à une fausse manip, il faut aller en baie mais on est pas encore carré sur les accès, on se grouille...
Le 21-01-2008
à 13h55
RodéricIntervention terminé. Le Filer vas mieux, merci.
;-)
Coopérativement
Le 20-01-2008
à 21h33
RodéricIntervention matériel sur un serveur Lundi 21 janvier vers 13h. Des perturbations peuvent arriver...
Coopérativement
Le 15-01-2008
à 22h46
Ouvaton[web] Le web a eu un gros coup de chaud aujourd'hui, il a fallut désactiver deux sites qui bouffaient toutes les ressources en générant des process blocant qui monopolisaient le filer et filer qui en retour a bloqué tout le web.

Normalement c'est reparti.
Le 15-01-2008
à 20h37
EstherLe filer a des problèmes...
L'infogérant est sur le coup.

Cela pourrait durer si il a besoin d'aller dans la baie
Le 07-01-2008
à 22h59
Ouvaton[gloux] l'intervention est terminée. Donc si vous rencontrez des choses bizarres, ... c'est bizarre et il faut le signaler sur les news svp .
Le 07-01-2008
à 21h52
Ouvaton[gloux] L'intervention décrite ci-dessous commence dans 2 minutes. Pas d'inquiétude donc.
Le 03-01-2008
à 11h00
Ouvaton[gloux] Intervention lundi 7 janvier 2008 de 22h à 24h sur les serveurs d'administrations. Cela va entrainer une coupure de service sur l'interface de gestion de l'hébergement et le webmail, le mysql dont il est question est uniquement celui des serveurs d'administrations, pas des sites web.

Planning:
* 22h: coupure de Gloux ainsi que tous les services
web fourni par admin1 pour les coopérateurs (Gloux, phpmyadmin,
webmails) pour les bénévoles (cacti, nagios, top10, top10-mysql)
* 22h05: mysql passe en lecture seule (il n'y aura
donc plus de mises à jour des top10)
* 23h-23h30: mysql repasse en lecture-écriture
* 23h30-00h: ré-ouverture de Gloux, webmails ...

Voilou et bonne année à tous.
Le 23-12-2007
à 10h07
Philippe[Facturation]

Le dispositif de facturation est (à peu près) au point.
Nous vous invitons à vous rendre sur votre panel pour prendre connaissance de votre facture de renouvellement et la régler.

Pour environ 10 % des coopérateurs, ces factures concernent des dépassements DISK. Le sujet est complexe et nécessite des échanges avec les admins.
Une "FAQ pour un ménage d’hiver" a été mise en place pour tenter de répondre aux questions les plus courantes.
Le 17-12-2007
à 23h50
Ouvaton[listes de diffusion] Sympa a délivré tous les mails ce concrètement représente 8Mb/s de traffic non stop pendant 3 heures quand même. J'ai traqué la cause dans les logs et trouvé le fautif. Encore une pièce jointe mais pas le même bug que la dernière fois... Pas fait de rapport cette fois, c'est mal...

Edit: Bon aller après tout ca sert à quoi de dormir: Rapport de bug sympa 3588
Le 17-12-2007
à 23h06
Ouvaton[listes de diffusion] Reste un peu moins d'un millier d'emails en queue, vu la vitesse ca sera fini de traiter d'ici 00h30
Le 17-12-2007
à 21h47
Ouvaton[web] Un serveur web ne répond plus du tout, une demande de relance à distance via le KVM a été demandée à Eiole. Cela explique sans doute le retour des erreurs 500. 2 solutions :
- soit le serveur repart et tout revient à la normale
- soit il a un gros problème genre alim ou DD et là il va falloir faire une intervention physique ce qui va prendre du temps

En attendant on attend le feedback d'Eiole.
Le 17-12-2007
à 21h45
Ouvaton[listes des diffusion] Le serveur web chargeant l'interface web de sympa a eu des faiblesses, ca devrait être ok maintenant.
Le 17-12-2007
à 21h26
Ouvaton[listes de diffusions] Sympa s'était recassé la gueule. Je viens de relancer, pas de trace dans les logs sur la raison. Pas trop de mail en queue, la distribution du retard ne devrait pas prendre plus d'une heure.
Le 17-12-2007
à 06h28
PhilippeListes de diffusion

Les listes sont muettes depuis dimanche après-midi.
Probablement encore un message qui bloque et un bouchon qui s'est formé.
Désolé.
Le 15-12-2007
à 14h39
Ouvaton[listes de diffusion] Incident clot, tout est distribué, la queue est vide
Le 15-12-2007
à 13h44
Ouvaton[listes de diffusion] C'est reparti à priori, je fais un edit d'ici une dizaine de minutes sur le temps de distribution des mails en attente

Edit: D'après la taille de la queue et sa vitesse d'écoulement tout sera distribué d'ici 30 minutes. Bon w-e.
Le 15-12-2007
à 13h14
Ouvaton[listes de diffusion] Bon je suis en route pour la connexion qui me donnera accès aux serveurs. J'y serai d'ici 30 minutes. Nel
Le 15-12-2007
à 09h57
PhilippeListes de diffusion

Depuis hier soir les listes de diffusion sont muettes.
Le logiciel de gestion (Sympa) est probablement coincé par un message, comme cela s'est déjà produit.
Le 10-12-2007
à 21h16
Ouvaton[messagerie] Depuis ce w-e jerome a remis en place un antispam/antivirus allégé qui a l'air de tenir la charge. Il est légèrement moins complet que le précédant mais les gains en performance, lié à la désactivation de certains tests gourmands, devraient permettre de le conserver activé avec le traffic mail actuel tout en ayant un peu de réserve de performance pour les pics d'activités.

On espère que ca va tenir.

[liste de discussion] Sympa s'est planté vers 17h, je lui ai filé une claque immédiatement et il est reparti occasionnant une file d'attente d'une dizaine de minutes qui s'est résorbée en qq minutes.
Le 07-12-2007
à 14h46
Ouvaton[messagerie] C'est node2-2 cette fois a 40k de mail, ca devrait être écoulé dans 1h ou 2. Bon on arrête les frais, tout antispam/antivirus sur ouvaton est désactivé jusqu'à ce qu'une solution durable soit mise en place.
Le 07-12-2007
à 00h52
Ouvaton[messagerie] c'est réglé tout est dans la boite, merci jerome :)
Le 06-12-2007
à 23h49
Ouvaton[messagerie] Ok c'est en cours de résolution, le serveur a rebooté et ainsi recupéré sa conf initial pas assez performante d'ici 4 heures tout est dans les boites.
Le 06-12-2007
à 23h19
Ouvaton[messagerie] Ca y est encore 50k mail en queue sur le node2-1 et 2k sur node2-2, va falloir désactiver l'antispam sur le node2-1
Le 05-12-2007
à 00h40
Ouvaton[web] Bon en fait c'est passé, c'est revenu au vert mais ca a du chauffer pas mal vers 22h. Tout est normal maintenant.
Le 05-12-2007
à 00h34
Ouvaton[web] On nous signale des lenteurs sur le web, bien que ce ne soit pas flagrant sur tous les sites. En revanche le monitoring indique une montée en charge louche à une heure où ca devrait être tranquillou.
Le 01-12-2007
à 01h34
Ouvaton[messagerie] C'est pas fini. node2-2 a un problème, ca fait trois qu'il est remis en conf normal par jerome et trois fois qu'il se retrouve à garder les mails pour lui.

Il a été replacé en conf sans antispam/antivirus pour vider les 70k mails qu'il a kidnappé aujourd'hui.

Jerome va essayer de faire tenir toute la plateforme mail sur node1-1 qui lui n'a pas de problème. Si ce n'est pas possible il faudra désactiver l'antispam de manière durable. En attendant tous les mails vont arriver d'ici demain matin.
Le 28-11-2007
à 10h25
Ouvaton[messagerie] Retour à la normale, tous les antispams sont en marche et les queues sont vides.

Dernière nuissance free nous a blacklisté pour quelques heures encore à cause des spams qu'on a du laisser passer. Si vous avez des problèmes pour expédier des mails vers des adresses @free.fr via le smtp vous pouvez toujours utiliser celui de votre fournisseur d'accès internet smtp.orange.fr smtp.free.fr smtp.noos.fr ...
Le 28-11-2007
à 01h35
Ouvaton[messagerie] un des nodes mail (node2-2) était tombé faute de place pour écrire les logs. 70k mails sont en train de partir.

Ca devrait être le dernier épisode d'une longue série, Jerome a optimisé la conf afin que les nodes puissent supporter la récente montée en charge de l'internet en terme de spam, ce qui a provoqué les troubles récents.

Demain on repasse le node2-2 en conf de production avec antispam et tout le toutim et on en parle plus.

Le deuxième node (node2-1) lui fonctionne sans problème, mais comme il y a une distribution des mails sur les deux certains mails sont restés bloqués sur le node2-2 alors que les autres sont passés.

Tout sera là dans quelques heures.
Le 25-11-2007
à 14h03
Philippe[Messagerie]

Nouvelle difficulté sur le serveur mail la nuit dernière (quelques mails bouclaient dans l'anti-spam).
Pour vider la file d'attente, Jérôme a momentanément désactivé l'anti-spam. Il le remettra dès que la situation sera redevenue normale.

Merci à Bzzz pour son alerte sur le forum tech.aide.
Le 24-11-2007
à 05h10
Ouvaton[messagerie]Retour à la normale des services mails. Le smtp doit refonctionner et l'antispam être à nouveau actif. Merci à Jerome.
Le 23-11-2007
à 12h10
Ouvaton[messagerie] Tout est maintenant arrivé. Il en reste sans doute un peu sur le mx2 mais le gros est là.
Le 22-11-2007
à 23h24
Ouvaton[messagerie] Les deux serveurs de mails delivrent maintenant les mails prisonniers. Il en reste 300 000, ca devrait être bon vers les 3-4 heures du mat.

Comme indiqué précédemment tout passe sans autre vérification, plus d'antispam, plus d'antivirus donc faîtes bien attention à ce que vous ouvrez l'internet arrive chez vous dans votre boite principale et c'est pas toujours beau à voir.

Utilisez le pop de préférence et éviter de laisser les messages sur le serveur, vider les poubelles etc.. etc... le filer qui contient les boites mails était déjà bien plein et ca ne va pas lui faire du bien de recevoir 40Go de mail en plus.

On devrait repartir en conf normal d'ici la fin de la semaine.

A priori il ne devrait pas y avoir eu de perte brute, par contre il est possible que des mails restent bloqués dans des smtp d'autres service et finissent par arriver au prochain essai ou de finalement repartir vers l'envoyeur en erreur.

Les sources du problème sont une augmentation sensible du traffic mail ces derniers jours avec en parallèle un manque de maintenance sur les serveurs mails qui ont perdu en performance à cause de process inutiles qui tournaient jusqu'à se retrouver dans la situation impossible de recevoir plus de données qu'ils n'étaient capable d'en écouler.

Bon spam :/
Le 22-11-2007
à 20h13
Ouvaton[messagerie] Jerome (ex eiole) est gentillement intervenu sur les nodes mails. Après désactivation de tout ce qu'il pouvait exim s'est mis à faire du 4-5 10-15 mails par seconde. Par contre plus d'antivirus, plus d'antispam rien tout va vous arriver dans les dents donc attention à ce que vous ouvrez. Vu la vitesse on peut espérer que la situation va se stabiliser d'ici demain matin.

Une petite source d'inquiétude c'est qu'un des 2 nodes mails semble un peu dans les choux, mais bon on a une solution, on va se débrouiller. Des nouvelles demains.

Merci à tous ceux qui ont proposés leur aide et ont aidé effectivement: Spyou d'Absolight, Jerome, Julien Balas, Azuria :), et des tonnes d'autres sur le forum et ailleurs. Bon c'est pas pour tout de suite qu'ouvaton sera en mesure de gérer ses propres sourcis serveurs (intéressant labsus) en interne mais on y travaille.
Le 22-11-2007
à 20h03
Ouvaton[loi de murphy] Bon ouvaton info a corrumpu ses données. J'ai récupéré dans le cache de google mais il manque les derniers développements
edit: J'ai restauré le reste avec les fautes d'aurthaugraf à partir du rss, tant pis pour le formating
Le 22-11-2007
à 17h35
Ouvaton [messagerie] Rien à faire, ca continue à grossir et à partir lentement. J'ai appelé la cavalerie et fait appel à un infogérant extérieur la situation n'aura pas de solution avant au moins demain midi. Plus d'info dès que j'en ai en attendant j'ai diminué le flux entrant donc des mails vont commencer à être refusé et des messages d'erreur renvoyé aux emetteurs.
Le 22-11-2007
à 15h35
Ouvaton [messagerie] Eiole m'a fournie les accès aux machine, la situation est assez préocupante. C'est un bête problème mécanique. Plus de mail arrivent que de mail ne sortent. Donc des mails sont bien expédiés de la plateforme mais globalement il en arrive 10 fois plus dans le même temps. On peut couper les entrées pour accélérer les sorties mais ca ne va faire que retarder les échéances. Ou accélérer les sorties en retirant tout un tas de vérification ce qui veut dire ouvrir les vannes aux spams ce qui se transformera en boite au lettre bourrée de spam et ultra lente ce qui posera alors un autre problème. Le truc embettant c'est que la source de ce surplus de mail est difficile à analyser car tous les smtps de la planete qui attende le bon vouloir des smtp ouvaton déverse les mails légitimes en attente. Bref pas top. Couper les mails en entrée et laisser se déverser tous les mails en attente serait peut-être la moins pire des solutions mais on ne saurait pas à quoi s'attendre en réouvrant. Sortir 5 serveurs de mails en plus pour traiter la masse de mail est hors de notre portée, et globalement exim ne délivre actuellement que quelques dizaine de mail par minute par serveur ce qui sur pour une queue de 200000 mails par serveurs veut dire longtemps.
Le 22-11-2007
à 11h13
Ouvaton [messagerie] La queue continue de grossir, les serveurs sont chargés à mort et exim ne délivre que 3-4 mails toutes les 10 secondes donc si rien n'est fait la situation n'évoluera pas favorablement. Je récupère les accès aux machines.
Le 22-11-2007
à 09h59
Ouvaton [messagerie] Bon les échos que j'ai pu recevoir montre que ca n'est en aucun cas réglé. Il y a du avoir un nouveau blocage. Plus d'info dans l'heure.
Le 22-11-2007
à 09h42
Ouvaton [messagerie] Les deux nodes de messagerie fonctionne à plein régime depuis hier soir, la queue était de taille conséquente et les smtp continuait de la bourrer. Si tout s'est bien passé elle devrait être quasiement écoulée ce matin, j'attend un coup de fil pour le confirmer. Par contre l'antispam ayant été désactivé le contenu des box ne doit pas être beau à voir, un conseil utilisez le pop.
Le 21-11-2007
à 17h30
Ouvaton [messagerie] Un node mail sur les 2 a été remis en service dans sa nouvelle partition. Plusieurs problèmes ont été rencontrés: exim ne prend pas en compte un paramètre de sa configuration qui lui demande d'arrêter la la livraison de mail au delà d'une certain charge. Ce paramètre avait été augmenté pour éviter que cette sécurité s'active. Pour baisser la charge l'antivirus a donc été temporairement désactivé. La queue commence donc à ce vider. Cependant il reste une mauvaise nouvelle. La queue continue de se remplir plus vite qu'elle ne se vide et la source de ces mails n'a pas encore été authentifié (est-ce que c'est les mx2 et 3 ou pas). Bref des mails partent mais en l'état le problème ne va pas se résorber car + de 100 000 mails sont dans la queue et seulement quelques uns partent chaque seconde. Eiole travaille à remettre en état de fonctionnement le deuxième node et on voit à ce moment, ils devraient nous donner des accès qu'on essaye de régler le problème ou au moins de l'analyser.
Le 21-11-2007
à 15h34
Ouvaton [messagerie]Ca s'est compliqué la copie a été un échec car en copiant la partition de 4go sur une partition de 50, eiole s'est rétrouvé avec une copie qui a fait 50go où un fichier ratelimit prennait la majorité de l'espace. Eiole recommence la même chose en espérant que cette fois ca marche. Le service mail est toujours fermé. Avant copie: root@node2-1 /usr/spool $ df -h Filesystem Size Used Avail Capacity Mounted on /dev/da0a 484M 484M -38M 109% / devfs 1.0K 1.0K 0B 100% /dev /dev/da0e 484M 2.5M 443M 1% /tmp /dev/da0f 60G 6.0G 49G 11% /usr /dev/da0d 3.9G 3.6G -518K 100% /var nfs-web:/space/www 625G 229G 346G 40% /space/www nfs-web:/space/sessions 625G 229G 346G 40% /space/sessions nfs-web:/space/uploads 625G 229G 346G 40% /space/uploads nfs-web:/space/web-stats 625G 229G 346G 40% /space/web-stats nfs-mail:/space/mail 625G 506G 69G 88% /space/mail nfs-mailing:/space/mailing 625G 506G 69G 88% /space/mailing install:/usr/local/tftpboot/usr/local/install_node/base0.2-mail/usr/ports 64G 32G 28G 53% /usr/ports 15:31 Au moment de l'échec de la copie: root@node2-1 /usr/spool $ df -h Filesystem Size Used Avail Capacity Mounted on /dev/da0a 484M 484M -38M 109% / devfs 1.0K 1.0K 0B 100% /dev /dev/da0e 484M 2.5M 443M 1% /tmp /dev/da0f 60G 59G -4.8G 109% /usr /dev/da0d 3.9G 3.6G -2.8M 100% /var nfs-web:/space/www 625G 229G 346G 40% /space/www nfs-web:/space/sessions 625G 229G 346G 40% /space/sessions nfs-web:/space/uploads 625G 229G 346G 40% /space/uploads nfs-web:/space/web-stats 625G 229G 346G 40% /space/web-stats nfs-mail:/space/mail 625G 504G 71G 88% /space/mail nfs-mailing:/space/mailing 625G 504G 71G 88% /space/mailing install:/usr/local/tftpboot/usr/local/install_node/base0.2-mail/usr/ports 64G 32G 28G 53% /usr/ports 15:32 le détail de la nouvelle partition: root@node2-1 /var $ ls -l spool/exim/db/ total 820956 -rw-r----- 1 mailnull mail 4362067968 Nov 21 03:06 callout -rw-r----- 1 mailnull mail 0 Feb 5 2007 callout.lockfile -rw-r----- 1 mailnull mail 68821155840 Nov 21 12:08 ratelimit -rw-r----- 1 mailnull mail 0 Feb 5 2007 ratelimit.lockfile -rw-r----- 1 mailnull mail 5070848 Nov 21 13:34 retry -rw-r----- 1 mailnull mail 0 Feb 5 2007 retry.lockfile -rw-r----- 1 mailnull mail 192512 Nov 21 11:58 wait-amavis_esmtp -rw-r----- 1 mailnull mail 0 Feb 5 2007 wait-amavis_esmtp.lockfile -rw-r----- 1 mailnull mail 16384 Nov 21 11:47 wait-amavis_esmtpa -rw-r----- 1 mailnull mail 0 Feb 5 2007 wait-amavis_esmtpa.lockfile -rw-r----- 1 mailnull mail 1318912 Nov 21 13:30 wait-remote_smtp -rw-r----- 1 mailnull mail 0 Feb 5 2007 wait-remote_smtp.lockfil
Le 21-11-2007
à 12h07
Ouvaton [messagerie] Le service mail est coupé afin de ne plus produire de queue. Le spool est copiée dans une autre partition avec plus de place, étant donné la taille ca va prendre quelques dizaines de minutes. Ensuite le service de mail sera relancé et la spool va se remplir. En revanche Laurent n'a pas déterminé pourquoi la spool a fait cette taille. La seule explication trouvée était qu'un réglage d'exim demandait l'arret de la livraison si la machine était trop chargé et a monté ce paramètre. Plus de nouvelle quand la migration du spool est terminé.
Le 21-11-2007
à 10h31
Ouvaton [messagerie] Des news enfin. La queue des deux serveurs mails est remplie, 8 giga de mail par server, elle a été vidée à la main hier vers 1h du mat donc quelques mails sont passés jusqu'à 4h du mat mais globalement ce matin c'est encore plein et donc rebloqué. Eiole est depassé par les évênements et appelé son ancien salarié Laurent à la rescousse qui y travaille en ce moment. Eoile n'a pas de raison sur le pourquoi la queue a explosée ou pourquoi les mails se sont dupliqués. Au niveau des mails les mx secondaires ont du récupérer pas mal de mail mais avec des volumes de cette taille il n'est pas sur que tout finira par passer, et il y a un risque non négligeable que ca finisse par être retourné à l'envoyeur avec un message d'erreur. Ouvaton va reprendre la main sur le code source de gloux et l'infogérance en fin de semaine, mais ca ne veut pas dire qu'on gèrera mieux le problème qu'Eiole, espérons que l'expérience sera une réussite.
Le 20-11-2007
à 14h09
OuvatonOn nous rapporte que le problème mail serait résolu ? Si ca n'est pas le cas n'hésitez pas à faire des retours sur les news
Le 20-11-2007
à 11h44
EstherLe service mail... pop Imap sont à la ramsse.

Un nouveau courriel vient d'être envoyé à l'infogérant.
Je préviendrai quand notre infogérant nous répondra.
Le 20-11-2007
à 01h31
OuvatonOn nous signale des lenteurs sur le mail pop et imap. Les ml ne sont pas impactées. L'infogérant a été encore une fois relancé, on a aucune info pour l'instant sur le pourquoi.
Le 19-11-2007
à 16h39
Esthersympa tousse depuis 13 heures 30

Il vient d'être redémarré par notre infogérant
Le 15-11-2007
à 08h57
Philippe[Messagerie]

La plate-forme rencontre des problèmes de messagerie.
Certaines boites anti-spam n'ont pas été vidées par leurs propriétaires depuis très longtemps. La charge est considérable.
Nous allons supprimer les messages vieux de plus d'un mois sur les boîtes anti-spam les plus chargées, jusqu'à retrouver un peu d'espace.
Nous ne savons pas précisément quand l'opération va avoir lieu.
Le 14-11-2007
à 01h46
EstherPas de nouvelle de l'infogérant... mais Squirrel refonctionne.
Le 13-11-2007
à 20h47
EstherSquirrel, Horde rencontre des problèmes... pas d'accès
Notre infogrant est prévenu
Le 10-11-2007
à 09h50
Philippe[Fin de panne]

Tout est revenu.
Pas d'explication pour le moment.
... mise à jour : il semblerait que la panne n'ait concerné que les connectés Wanadoo.
Le 10-11-2007
à 09h32
Philippe[Panne]

Panne générale (seul le serveur de newsgroups répond).
Infogérant prévenu.
Pas de nouvelle pour le moment.
Le 08-11-2007
à 10h27
Ouvaton[mail] Il a (avait ?) avec les emails à destination de wanadoo hier. Rien à voir avec ouvaton d'après les messages d'erreurs qu'ils envoient ils ont un problème sur un serveur, à vu de nez un update qui s'est mal passé chez eu. je ne sais pas s'ils ont réparé à l'heure actuelle.

: Command died with status 3:
"/wanadoo/postfix/libexec/me-filter". Command output: Can't open file
'wordlist.db' in directory '/wanadoo/bogofilter'. error #22 - Invalid
argument. Make sure that the database version this program is linked
against can handle the format of the data base file (after updates in
particular).
Le 07-11-2007
à 16h25
Ouvaton[listes de diffusion]Suite au dernier incident et au rapport de bug que l'on a fait la communauté sympa a amélioré son produit. Tous les utilisateurs en profiteront et tous les ouvatons du monde gagneront en stabilité.

le rapport de bug pour les curieux

Open Source rulez!
Le 06-11-2007
à 12h24
Ouvaton[listes de diffusion][loi de murphy] Problème mineur réglé sur les listes entre 10h et 12h. Un email avec pièce jointe ne plaisait pas à sympa et le faisait systématiquement planter. Le mail a été retiré de la queue et sympa relancé. Il y a eu 2 heure de retard dans la diffusion mais tous les mails ont été déservis.
Le 05-11-2007
à 22h53
Ouvaton[listes de diffusion] 5900 décompte continue, ca tourne cette fois admin-panel commence à recevoir des mails (et représente 20% de la queue :( ). Pas d'inquiétude il n'y a pas eu de perte ca arrive juste douuuuuuuuucement. Je referai un point demain matin. Bonne soirée. A vi et j'avais oublié merci à Laurent de Typhon je pense qu'il a fait le premier gros netoyage de la queue

edit: 2h du mat, plus que 3950, on est dans la moyenne
edit2: 8 du mat, la queue est vide, tous les mails de liste en retard ont été distribués
Le 05-11-2007
à 21h38
Ouvaton[listes de diffusion] La situation est stabilisée la queue est en train de diminuer. Le truc c'est que notre install de sympa avance à la vitesse d'un escargot malade sur une base de 11 mail par minute. La fil d'attente est encore de 6500 mail donc ca va prendre 9 heure et quelques pour s'écouler. Tout le monde aura donc recu ses mails demain matin. Je ne vais pas donner les éléments détaillés du problème pour éviter qu'un petit malin recommence mais en gros c'était un problème de bounce, un mail d'erreur qui était renvoyé en mail normal qui était renvoyé en mail d'erreur qui était renvoyé en mail normal... ce qui bloquait l'avancée des listes légitimes. Comment ca peut arriver ? Je dirais que c'est l'alliance d'un serveur de mail mal configuré chez le destinataire allié à un sympa qui n'a pas su repérer le problème et continuait bettement à distribuer un mail qui lui revenait. La mauvaise nouvelle c'est que c'est inhérent à sympa donc à moins de modifier le code ca pourrait se reproduire. La bonne c'est que comme toute installation de nouvelle liste est manuelle on fera attention. Voilà désolé pour le temps d'indisponibilité on cherche une nouvelle solution pour l'infogérance. En attendant j'interviendrai sur les machines quand Eiole sera à la rue. Merci à Romain de m'avoir filé le root et d'avoir fait son possible pour me montrer ou se passait les choses.


Petit message en passant, je voulais le faire plus tard mais tant pis je pense qu'il est temps pour ouvaton de faire appel à ses coopérateurs et à ses amis au niveau de la technique pointue donc si ca vous êtes un expert bsd ou éventuellement debian n'hésitez pas à m'écrire à nel (à) no-log.org. On ne reprend pas le root dans l'immédiat mais on peut commencer à en discuter. J'en profite pour remercier les membres/admin de Globenet, l'autre.net l'apinc et marsnet pour leur soutient moral et Valentin pour son hospitalité. ++

Nel
Le 05-11-2007
à 20h41
Ouvaton[listes de diffusion]Bon on a brisé nos sacro saintes règles et eiole m'a filé la main sur le serveur. Ca à l'air d'être reparti mais à coup de 2 mails/5 secondes et y en a 7000 en attente donc je préfère pas faire le calcul mail ca fait plusieurs heure avant le retour à la normale.
Le 05-11-2007
à 16h20
Ouvaton[listes de discussion] Bon on a enfin eu un peu d'info. Une liste est partie en sucette, ca a bouclé et le système de detection de sympa n'a pas fonctionné résultat des 100aines de millier de mail générés par une liste qui ont tué le serveur et rendu impossible son redemarrage. Le problème étant maintenant de netoyer tout ca pour pouvoir faire repartir sympa dans de bonne condition ce qui n'est pas des plus simple si on veut éviter de perdre des mails.
Le 05-11-2007
à 10h59
Ouvaton[listes de diffusion] La situation est assez complexe notre infogérant Eiole n'est plus en mesure d'assurer dans les meilleurs conditions l'infogérance suite au départ quasi synchronisé de ses 2 sys-admin. Résultat c'est l'hébergeur Typhon chez lequel est parti un des salariés qui va intervenir pour réparer sympa. On attend donc leur intervention, ca devrait arriver dans la journée. Nous sommes bien conscient de la gène engendrée et travaillons à simplifier la chaine d'intervention.
Le 03-11-2007
à 23h38
Ouvaton[listes de diffusion] Pas de nouvelle de Romain (Eiole) pour l'instant. A priori cela ne devrait pas engendré de perte de mail c'est juste un mail que Sympa n'a pas compris et qui fait planter le service. Il suffit (faut) le retirer à la main de la fil d'attente des mails. On attend que l'infogérant le fasse.
Le 03-11-2007
à 14h38
Ouvaton[listes de diffusion] Un mail bloque probablement la queue de sympa, il a été demandé à l'infogérant de retirer les premiers mails de la queue et de redemarrer sympa afin de faire repartir le service.
Le 03-11-2007
à 00h10
Nico[support] effet induit de la panne des listes de diffusion, le support ne reçoit aucun mail même si ceux-ci sont marqués envoyés. Pas d'étonnement donc si vous ne recevez pas de réponse à vos questions via le formulaire admin-panel :(
Le 02-11-2007
à 16h10
Philippe[listes de diffusion]
L'infogérant a relancé plusieurs fois le logiciel de gestion des listes (qui se lance apparemment bien), mais quelque chose coince quelque part qu'il ne parvient pas à trouver.
Le 02-11-2007
à 14h16
Philippe[mail]

Boites mail inaccessibles ("out of disk space").
Désolé.
Infogérant prévenu.
... 15h00 : boites accessibles.
Le 01-11-2007
à 14h43
Philippe[Listes de diffusion]
Il semble que Sympa (logiciel de gestion des listes de diffusion) soit bloqué.
Un mot vient d'être envoyé à l'infogérant.
Le 31-10-2007
à 16h34
Philippe[mail] L'infogérant informe qu'il vient de relancer le service mail.
Le 31-10-2007
à 14h32
Philippe[webmail] Le webmail est en panne.
L'accès à https://horde.ocsa-data.net/ et son utilisation sont très laborieux.
Quant à https://webmail.ocsa-data.net/ c'est totalement impossible.
Un message a été adressé à l'infogérant.
Le 30-10-2007
à 07h02
Philippe[mail] Une intervention a eu lieu cette nuit.
Ce matin la situation est redevenue normale.
(y compris l'envoi par Squirrelmail).
Le 29-10-2007
à 21h52
Philippe[mail] La situation s'aggrave. Les serveurs SMTP d'Ouvaton sont probablement engorgés quelque part. Les messages ne semblent plus passer du tout.
Nous n'avons pas de nouvelles de l'infogérant.
Désolé.
Le 29-10-2007
à 08h10
Philippe[mail] Le souci demeure : l'envoi de messages par formulaires php et par SquirrelMail ne fonctionne pas ("61 Can't open SMTP stream.").

Nous n'avons pas de nouvelles de l'infogérant pour le moment.

Bon à savoir : L'envoi de messages fonctionne à partir de https://horde.ocsa-data.net/
Le 28-10-2007
à 01h01
Nico[Mail] Souci repéré sur l'envoi de messages via le webmail et/ou via la fonction mail de php. Etude en cours...
Le 20-10-2007
à 14h25
Philippe[Listes de diffusion]

Retour à la normale le 20/10/07 vers 13h30.
Le 20-10-2007
à 07h10
Philippe[Listes de diffusion]

Le logiciel de diffusion des messages de listes (Sympa) est bloqué depuis hier (19/10/07) vers 18h30.
L'infogérant a été prévenu. Nous attendons des nouvelles.
Le 10-10-2007
à 14h49
Nico[mail et web] la moins bonne nouvelle c'est que ce n'est pas encore tout à fait au point :\
Le 10-10-2007
à 14h42
Nico[mail et web] le volume des boites mail et des esapces web est disponible dans le détails en mode avancé sur votre panel : c'est une bonne nouvelle :D
Le 05-10-2007
à 20h42
Nico[ouvaton.info] ouvaton.info est enfin sur un serveur différent que la plateforme web.
Le 04-10-2007
à 20h43
Nico[web] le filer (le serveur qui a les données, vos fichiers) était en rade ce matin, des difficultés à repartir. Il a été opérationnel à nouveau vers 9h.
Le 01-10-2007
à 22h12
Philippe[Erreurs 500]

Nous avions mis le dysfonctionnement du week-end passé sur le compte d'un problème MySQL (ce qui nous désolait beaucoup car nous espérions avoir trouvé, avec le doublement du serveur, un dispositif viable).

En fait, selon l'infogérant, le dysfonctionnement constaté aurait été occasionné par l'arrêt, encore inexpliqué, de trois "nodes Web".

Ils ont été relancés. Les choses devraient aller mieux maintenant.
Le 01-10-2007
à 14h07
Virginie[Erreurs 500]

Depuis hier, les erreurs 500 se multiplient, rendant extrèmement difficile la navigation ou la mise à jour des sites dynamiques.

Notre infogérant est prévenu. Nous n'avons pas de nouvelles pour le moment.
Le 25-09-2007
à 22h42
Virginie[Mysql] 27/09 Interruption

Le serveur "mysql1-vip" sera indisponible le jeudi 27 septembre 2007 entre 7h et 8h.

Cette interruption est nécessaire pour permettre la mise en place d'un serveur de réplication.
Le 05-09-2007
à 09h43
Nico[Mail] Vous aviez précédemment la possibilité de créer une redirection vers plusieurs adresses en séparant celles-ci par des ";" dans la case adéquate de votre panel.

Cette possibilité avait disparu à tort suite aux restrictions imposées sur les catch-all. Elle devrait revenir lors de la prochaine mise à jour de Gloux et nous le signalerons donc ici aussi.
Le 30-08-2007
à 11h32
PhilippeBonjour,

Les listes de diffusion ont été remises en route hier vers 16h30.

La mise au point de l'interface, adaptée à la nouvelle version, vient d'être achevée.
Le Service de Listes est donc à nouveau complètement opérationnel.

Avec cette nouvelle version de Sympa (5.3.2) les caractères accentués devraient être mieux gérés.

Si vous avez des remarques ou des suggestions au sujet des listes, le forum (newsgroup) tech.listes.sympa vous est ouvert sur news://news.ouvaton.net/
Le 29-08-2007
à 15h39
Nico[Mail] A priori, club internet aurait changer la configuration de ses serveurs de mail. Ces changements provoquent des difficultés dans les échanges entre les adresses club-internet et celles d'ouvaton, listes de diffusion comprises. Le problème a l'air dans le sens : réception chez club-internet de mail émanant d'ouvaton. Notre infogérant est sur le coup et cherche à régler le problème avec le postmaster-club-internet
Le 27-08-2007
à 16h26
PhilippeBonjour,

Mercredi 29 août 2007, en milieu d'après-midi, les listes de diffusion et l'interface de gestion des listes seront arrêtées pendant une heure ou deux.

Nous allons procéder à une mise à jour du logiciel Sympa (passage à la version 5.3.2).

A l'occasion de cette opération, les fichiers de configuration et les bases d'abonnés seront sauvegardés (pour pouvoir revenir en arrière en cas de problème). En revanche, dans un tel cas, les archives ne sont pas
sauvegardées.
Le 19-08-2007
à 22h01
Virginie[Mailing-list] Résolu

Le serveur de mailing-list Sympa a été redémarré. Tout semble rentré dans l'ordre. Aucun mail n'a été perdu.
Le 18-08-2007
à 16h21
Virginie[Mailing-list] Lenteurs en ce moment

Depuis hier soir, nous constatons des lenteurs dans les mailing-list gérées par Ouvaton. Les messages peuvent mettre plusieurs heures à être distribués aux abonnés. Nous ne savons pas s'il s'agit juste de retards ou si des mails ont pu être perdus.

Notre infogérant est prévenu.
Le 16-08-2007
à 00h06
EstherLe 7 août, l'ancienne machine mysql devenue serveur de back-up de mysql1 a vu une partie de ses disques fonctionnant en raid tomber raides. Comme Dell a une grande partie des commerciaux qui restent qui sont en vacances, la commande d'une nouvelle machine, traîne :-(

Donc ATTENTION... depuis le 7, plus de backup des bases qui sont sur Mysql1. Faites des sauvegardes ou passez sur Mysql2... sans oublier de changer l'adresse de votre base.
Le 28-07-2007
à 11h27
NicoAvancées : notre IG travaille en profondeur sur l'ajustement des règles de mise en liste noire des envoyeurs de mails, les changements devraient se faire sentir très bientôt. Travail également sur les backup des bases de données, plus de détails prochianement.
Le 24-07-2007
à 20h02
Estherle "bug fou" qui mettait les espaces web en erreur a eu droit à sa fête...

Donc plus de problème à ce niveau lors de la création d'un espace web ou bien d'un domaine / sous domaine.

Vous pouvez replonger dans vos panels.
Le 21-07-2007
à 18h26
Estherce soir...
assez tard notre infogérant va reloader mysql1-vip.
Il faudra compter 5mn de down. Ceci a pour objectif de mettre en place une nouvelle fonctionnalité (patch perso dans le serveur mysql :D ).
Le 21-07-2007
à 17h01
VirginieDepuis quelques jours, il y a un bug sur notre plate-forme, qui apparait lors de la création de nouveaux sites web.

Les symptômes du bug : le site n'est plus accessible, et retourne une erreur 500, et il n'est plus possible de se connecter en ftp dessus.

Ce bug sera corrigé au plus tôt mardi (les développeurs doivent d'abord faire des tests approfondis).

D'ICI LA, NE CREEZ PAS DE NOUVEAUX SITES !

Non seulement ils ne fonctionneraient pas, mais cela ne ferait que créer des problèmes, qu'il faudrait réparer ensuite.

Si vous êtes victime de ce bug, envoyez-nous un mail à

admin-panel (at) listes.ouvaton.coop
en précisant :
votre panel
et le nom d'au moins un site impacté.
Le 14-07-2007
à 16h11
VirginiePlusieurs coopérateurs ont signalé avoir des problèmes à recevoir des mails dont les expéditeurs avaient une adresse chez hotmail.com ou sur un domaine géré par online.net.

Etant donnée la manière dont notre système de mail fonctionne, il est possible que ce blocage soit lié au blacklistage des serveurs d'Ouvaton, lui-même causé en grande partie par les catchalls externes.

Les catchalls externes ont été supprimés jeudi. Il faut donc un peu de temps pour que la situation redevienne normale.

Si ensuite vous continuez à avoir des problèmes pour recevoir desmails, écrivez-nous à messagerie (at) support.ouvaton.coop en nous donnant le maximum de détails et en particulier le message d'erreur que reçoivent vos correspondants, si vous avez une autre adresse où ils peuvent vous l'envoyer.
Le 12-07-2007
à 07h31
PhilippeLe remplacement de mysql1-vip s'est achevé vers 02.00 cette nuit.

Dans la très grande majorité des cas, vous ne devriez rien avoir à changer à quoique ce soit, suite à cette opération.

Ce changement de machines s'est accompagné d'un changement de version de MySQL (maintenant en version 5).
Nous rappelons qu'un forum Ouvaton vous est ouvert pour discuter des questions se rapportant à MySQL.
Le 11-07-2007
à 21h54
PhilippeL'opération de remplacement de mysql2-vip s'est bien passée.

C'est maintenant au tour de mysql1-vip (ça va être un peu plus long probablement).
Le 11-07-2007
à 20h11
PhilippeL'opération de remplacement des serveurs MySQL par des neufs est en cours ce soir (d'abord mysql2-vip puis mysql1-vip).

Pendant cette opération, les sites Web dépendant d'une base de données sont inaccessibles.
Le 10-07-2007
à 12h59
EstherLes nouvelles machines pour Mysql ont été testées.
Elles vont être installées mercredi soir.

Les deux machines, Mysql1 et Mysql2 tourneront avec un MySQL version 5... ce qui peut poser des problèmes pour des vieux CMS... Alors vérifiez avant, si vous en avez le loisir.

Voila le message de notre infogérant:

Bonjour,
voila, nous avons configuré et testé les nouveaux serveurs.
Ils sont nettement plus rapides que les serveurs mysql actuels.
Nous prévoyons de les mettre en place au plus vite pour
redonner à Ouvaton un rythme de croisière :) on peut
effectuer la bascule vers les nouveaux serveurs mercredi soir.

Les opérations sont les suivantes :
* arrêt du serveur mysql et backup
* mise en place du nouveau serveur mysql
* copie des données de l'ancien serveur mysql
sur le nouveau
* mise à jour vers mysql5 des données
* mise en place de la réplication
* tests
* ré-ouverture du serveur pour les serveurs web

Nous effectuerons l'intervention sur les 2 serveurs mysql
l'un après l'autre. C'est à dire que lorsque nous nous
occuperons de mysql2-vip, le serveur mysql1-vip continuera
de fonctionner en attendant son tour pour être migré.

Durant l'arrêt des serveurs, tous les sites web qui fonctionnent
avec mysql ne fonctionneront plus, mais tous les autres
services (mail, ftp, web static et php qui n'utilisent pas
de bases de données) ne seront pas impactés.

Voici le planning prévisionnel pour mercredi soir:
* 20h30: arrêt de mysql2
* 22h30: redémarrage de mysql2
* 22h40: arrêt de mysql1
* 01h40: redémarrage de mysql1

Ce planning est informatif, la fenêtre d'intervention
est : 20h30-2h00 heure de Paris.

!!! il n'y a aucune modification pour les coopérateurs,
cette opération est transparente, même adresse de connexion,
même login, même mot de passe.
Le 04-07-2007
à 18h02
PhilippeLes sites qui dépendent du premier serveur MySQL sont actuellement difficilement accessibles (erreur 500).
C'est l'occasion de rappeler que nous avons mis en place un deuxième serveur. Encore faut-il que des coopérateurs en nombre suffisant fassent l'opération (pour le moment nous n'en sommes qu'à mi-objectif).

Rappel : l'opération en question est expliquée en
http://ouvaton.coop/spip.php?article238 (et sur le forum news://news.ocsa-data.net/coop.annonces ).
Le 03-07-2007
à 13h04
EstherNotre infogérant doit ajouter un disque et ensuite mettre en place un raid logiciel sur le serveur de mailing list (c'était comme cela sur les 2 autres disques).
Il y aura 30 minutes de coupures du service de mailing liste Jeudi 5 à 15 heures.
Le 02-07-2007
à 16h23
EstherBonjour, encore un pas en avant :-)

Après deux mois de privation de nouveaux coopérateurs...

Bienvenue, bienvenue chez les hébergés-hébergeurs de la coopérative Ouvaton.
Welcome, il est à nouveau possible d'ouvrir de nouveaux panels.

Oui, mais quel est le chemin pour souscrire... Le voilà.
https://gloux.ouvaton.coop/subscription/
Le 28-06-2007
à 21h54
Grégoire MétralLes catch-all externes, c'est-à-dire qui pointent vers des collecteurs (des adresses de courriel) qui se trouvent hébergés à l'extérieur de la plate-forme Ouvaton (p.ex. @free.fr, @gmail.com...) vont être interdits d'ici une quinzaine.

En effet, cette pratique de rediriger tout ce qui n'est pas précisément destiné à une adresse hébergée vers un autre fournisseur de services pose de graves problèmes de black-listage d'Ouvaton.

Modifiez vos catch-all d'ici là. Nous supprimerons ensuite toutes les adresses externes qui seront encore définies comme catch-all. Merci!
Le 27-06-2007
à 21h28
Esthermessage attendu... La migration est à nouveau fonctionnelle d'Ouvaton sur Gloux d'Ouvaton III.
adresse ancien panel https://ssl.ouvaton.coop/panel/
Sautez sur vos panels... migrez, jetez un dernier coupd'oeil et ensuite découvrez votre nouveau pannel.

Ceux qui ont des domaines en nom propre doivent s'il ne l'on pas encore fait allez les changer chez leur registar.
Le 27-06-2007
à 02h48
EstherALERTE / maintenance de vos scripts et CMS...

Mettez vos CMS et autres scripts à jour...

Notre infogérant nous avertit à 0h 18 que des sites sont attaqués... Surtout les sites qui utilisent EVA.

Sauf, deux ou trois sites qui sembalient très importants, notre infogérant à désactiver un certain nombre de sites.

Message de notre infogérant:
---------------------------------
Bonsoir,

ce soir plusieurs nodes sont tombées coup sur coups.
Je pense que ça vient d'un coopérateur qui c'est fait
attaqué (ça c'est sûr qu'il c'est fait attaquer).
Je viens de lui couper tous ces sites web, il faut
qu'il mette à jour ces applications.
------------------------
Nous avons la liste des panels... Que je ne copie pas :-)
----------------------------
J'ai désactivé les sites web pour tous ceux-là (hormis citron
vert et un ou deux autres). Je vous laisse prendre contact avec
ces coopérateurs et leur réactiver leurs sites web (!!! ils
peuvent le faire d'eux-même), si je vois encore des attaques qui
réussisse sur leurs comptes, on devra prendre des mesures plus
radicale pour protéger les autres coopérateurs.

J'ai trouvé que le hacker utilisait un mail pour signaler
les sites attaqués, j'ai bloqué l'envoi de ces emails.

Pour le moment, la plateforme a l'air stabilisée :)
J'ai mis des barrières à différents niveaux (routage,
mail, serveurs web).

Je retourne me coucher.
------------------------
Que votre site ait été désactivé ou pas.... Mettez des CMS sécurisés... Pensez à la plateforme et aux autres coopérateurs.

Merci .Pour Le conseil de Surveillance

Esther
Le 26-06-2007
à 23h07
NicoLa mise en route du deuxième serveur MySql a causé une pétouille dans la création de nouvelles bases, création qui était donc impossible. Normalement c'est réparé, vous pouvez donc créer des bases comme bon vous semble dès à présent.
Le 26-06-2007
à 10h30
NicoPour chnager de serveur sa base MySql les explications sont sur http://ouvaton.coop/spip.php?article238
Le 25-06-2007
à 18h51
NicoMise en production du deuxième serveur MySql
Le 20-06-2007
à 00h05
NicoLe disque du serveur de listes de diffusion est très mal en point. De ce fait, un accès disque mal placé arrive à faire planter le serveur. C'est la raison pour laquelle il est tombé en panne vendredi soir.

Un nouveau disque a été préparé.
Il sera mis en place mercredi 20 juin 2007.
La durée d'intervention prévue est de deux heures.
Le service de listes de diffusion devrait donc être suspendu, ce mercredi en fin de matinée de 10h à 12h.
Le 16-06-2007
à 14h13
EstherSympa est reparti ce matin à 9h30..
Les messages sur les listes sont délivrés.
Le 16-06-2007
à 04h50
EstherLe serveur Sympa semble avoir un problème... nos listes ne fonctionnent pas.... depuis 18 heures... et là toujours rien;

Eiole est prévenu
Le 11-06-2007
à 12h27
NicoToujours des soucis avec le serveur Mysql. J'en sais pas plus pour l'instant (donc les erreurs 500 sont là)
Le 08-06-2007
à 01h02
Estherproblème avec le serveur Mysql..
Ça rame un max :-((

Voila ce que dit notre infogérant...

la raison des lenteurs depuis 2 jours : MySQL.
Le serveur n'arrive plus du tout à suivre, j'ai fait quelques ajustements de configuration, mais rien à faire, la capa hardware du serveur est atteinte (le trio CPU / RAM / Disque est au bout du bout). Le serveur n'encaissera pas plus de requêtes /sec.

Seule solution: disposer d'un 2ème serveur MySQL.
Solution proposée :
* copier les bases de données du serveur mysql d'ouvaton 2 sur un des tout vieux serveurs d'ouvaton 2
* récupérer le serveur mysql d'ouvaton2 et l'installer
en tant que mysql2-1 (si vous retrouvez mes schémas visio de
l'époque)

Avantages:
* le goulet d'étranglement mysql sera résorbé.

Inconvénient:
* ce serveur était destiné à suppléer mysql1-1 (backup)
il ne pourra plus être de backup
* nécessité de récupérer et d'installer un serveur
+ backup de mysql pour pouvoir continuer les migrations
d'ouvaton 2 ...
* il va falloir coder quelque chose pour migrer d'office un certains nombre de bases afin que mysql1-1 retrouve une certaine vélocité (schéma de migration à définir)

Sinon, l'idéal serait d'acheter un nouveau serveur MySQL.
Eiole

J'ajoute que je me demande pourquoi nos sites deviennent ainsi gourmands en ressources... est-ce l'évolution des CMS ou le mode de fonctionnement et de gestion de notre nouvelle plateforme?
Le 07-06-2007
à 23h37
Grégoire MétralUn grand merci à tou-te-s les coopératrices-teurs pour les infos transmises, sur les forums et sur admin-panel, concernant les erreurs 500 afin de permettre un diagnostic à EiOLE. La cause semble être la suivante: serveur MySQL au taquet. Décision est prise de prendre un serveur supplémentaire en urgence pour doubler le serveur MySQL, mais il faudra envisager à terme l'achat d'une nouvelle machine.

Encore désolés pour ces désagréments qui n'ont guère été anticipés, et qui ont mis quelques jours à être pris vraiment en compte...
Le 07-06-2007
à 15h13
Grégoire MétralEiOLE se penche sur les problèmes de lenteurs et d'erreurs 500. Ils sont notamment présents sur le forum tech.aide des news. Pour les problèmes constatés, ils demandent un maximum d'informations pour pouvoir établir les diagnostics:

Panel:
URL:
IP:
Date:
Heure:
Base de données:
Application utilisée (ou home made):
Version de l'appli (ou NA si home made):
Avis quand à la charge sql demandée par votre appli:
Avis quand à la charge php demandée par votre appli:

Postez ces infos sur le forum, ou envoyez-les à admin-panel [at] listes.ouvaton.coop et on en fera un "digest" périodique.
Le 07-06-2007
à 12h21
EstherMysql vient de faire une syncope... les toubibs sont à son chevet
Le 05-06-2007
à 22h59
NicoRetour des news via interface web http://webnews.ouvaton.coop
Le 03-06-2007
à 21h42
Grégoire MétralC'est revenu. Deux fois en une journée, je n'aime pas ça... Attendons pour voir.
Le 03-06-2007
à 21h04
Grégoire MétralDe nouveau des instabilités sur la plate-forme... PHP en cause? On cherche.
Le 03-06-2007
à 14h13
EstherC'est reparti
Le 03-06-2007
à 14h10
EstherLa plateforme est tombée... problème avec un load-balancer.
Eiole est sur le coup.

Le 02-06-2007
à 09h59
NicoLes NG sont définitivement revenus avec blabla au tête :D
Pour les utilisateurs de thunderbird (entre autre) il y a quelques manips à faire pour retrouver les fonctionnalités : vous pouvez utiliser la nouvelle adresse news.ocsa-data.net, le plus simple après est de supprimer votre ancien compte de News, supprimer les fichiers correspondants dans votre dossier Thunderbird puis recréer les comptes.
EDIT: La liste a légèrement changé, donc pensez à bien rafraîchir les groupes. Et n'oubliez pas non plus cette faq!
Le 28-05-2007
à 14h33
NicoMails ouvaton vers cegetel
Il y avait des soucis pour l'envoi de messages vers cegetel en utilisant le smtp ouvaton. L'IG a retouché la config des serveurs de mails, et d'ici demain (propagation de la nouvelle config) ça devrait passer systématiquement (tests déjà concluants aujourd'hui de ma part via Webmail et messagerie Thunderbird). Les serveurs de Cegetel restent quand même mal configurés selon notre IG :(
Le 27-05-2007
à 10h35
NicoPoint sur échanges avec mails sur domaine cegetel et neuf
Cegetel/Neuf refuse les mails envoyés via le smtp d'Ouvaton (avec TDB ça ne part même pas, avec webmail message de non distribution). Pour les gens concernés, une solution temporaire est d'utiliser le smtp de votre FAI, à moyen terme contacter cegetel pour leur dire que la configuration de leur serveur n'est pas bonne. Nous regardons de notre côté ce qui est jouable avec l'IG.
Le 26-05-2007
à 10h51
NicoLe remontage de l'ancienne plateforme (Ouvaton2) prend plus de temps que prévu, et nous n'avons pas encore accès aux données des comptes non migrés. Comme dit dans chaque mail personnellement pour les concernés inquiets, nous annoncerons ici quand ce sera ok.
Le 22-05-2007
à 11h41
EstherPour ceux qui ont attendu le retour des services, vous avez pu constater comme moi que ce fût plus long que prévu... Notre infogérant a du tomber sur une difficulté... mais pour le moment nous n'avons pas encore le compte rendu de l'intervention.
Le 21-05-2007
à 17h55
EstherInterruptions de nos services courriels le 21 mai au soir vers 19H 21H

Le raid logiciel présent sur ml.ocsa-data.net est en mode dégradé, et le(seul) disque valide présent dans le raid ne permet pas la reconstruction du raid.

Cette intervention va se faire ce soir. la fenetre d'intervention est de 19 à 21 heures. Il provoquera une coupure du service de mailing list (mails + interface d'administration).

Un reboot d'admin1 est prévu dans un but de tuning, ce reboot va entrainer la coupure de tous les services sur ouvaton de 5 à 15 minutes est à prévoir à vers 19h30.
(aucun email ne sera perdu durant l'opération).
Le 19-05-2007
à 12h22
NicoRetour temporaire du serveur de news de l'ancienne plateforme... donc news disponibles ! tout ça en attente de la mise en route de notre nouveau serveur de news :D
Le 15-05-2007
à 20h10
NicoD'après ce que j'ai compris il y a un bug qui traine sur le système de gestion des listes Sympa. Ca donne des bloquages de distribution de temps en temps. Relativement transparent quand on s'aperçoit assez tôt et des fois comme cet après-midi avec 4h de down.
Intervention donc ce soir entre 22h et 23h pour corriger ce problème a priori de manière définitive - interruption des listes pendant 5 minutes.
Le 15-05-2007
à 19h15
NicoCoupure des listes de discussion cet après-midi, relancées ce soir vers 19h, donc effet induit support indisponible tout l'après-midi.
Le 14-05-2007
à 19h50
NicoUn filer (un serveur avec des données dessus) a planté ce matin, ce qui explique l'interruption que certains ont vu à ce moment. Reboot prévu d'ici 23H - 5 minutes d'interruption de services pendant le reboot.
Le 12-05-2007
à 18h57
EstherBon, voici le petit message promis aux coopérateurs qui ont encore besoin de Rémi.... pour les données qui étaient restées sur ouvaton II. La machine est dans les mains d'Eiole et devrait être rapidement accessible sur le réseau.
Le 11-05-2007
à 23h11
NicoDes serveurs web (nodes) ont été rajoutés à la plateforme en début de semaine comme promis ;o) surveillez donc la disparition de vos erreurs 500 !


Suite à un cafouillage de notre part (Rodéric et moi pour les coups de fouets) et à une migration de comptes mails cafouilleuse (eh oui nous aussi avons des pb de migration) la plateforme Ouvaton2 n'a pas pu être remontée cette semaine...


Bref le temps de recaler tout ça, et nous devrions revoir nos NG, Ouvaton2 (pour les retardataires de la migration) dans le courant de la semaine prochaine. Les inscriptions et la facturation (vous ne croyiez pas rester sans payer comme ça, non !!) devraient suivre.
Le 08-05-2007
à 20h08
Grégoire MétralSelon notre infogérant, la création de boîtes en @ouvaton.org est de nouveau possible. Les redirections sont toujours désactivées: elles seront réactivées avec les prochaines corrections.

Quant aux news, il faudra patienter avant de les revoir. Les serveurs ont été débranchés et elles réapparaîtront probablement sous une autre forme. Pour vos questions, vous pouvez aller sur http://forums.ouvaton.org/
Le 08-05-2007
à 11h16
NicoActuellement la création des boites en @ouvaton.org et de sous-domaines en .ouvaton.org est impossible. Ce n'est pas un changement de politique, c'est un pb technique dans le nouveau panel ; on fait signe dès que c'est remis en route.
Je dis au passage que pour tous ceux qui ont des pb à relever leurs boites en @ouvaton.org, le login est désormais l'adresse complète. Par exemple pour adresse@ouvaton.org, le login est adresse@ouvaton.org et non adresse tout court, le mot de passe reste inchangé.
Le 05-05-2007
à 19h39
EstherPeut-être vous réalisez que les news groups ne fonctionnent pas depuis 17h30.

Grande nouvelle pour celles et ceux qui n'ont pas reçu ou lu le bulletin envoyé par le CS (conseil de Surveillance)," la migration est dans sa phase finale". Il n'y a plus une machine branchée dans la baie que nous avions chez Azuria... donc une partie des services liés à Vhffs ne sont plus accessibles.

Ceux qui n'ont pas fini de modifier les DNS de leur nom de domaine sont hors accès via Internet. Pour ces coopérateurs, vous devez aller sur le site du registar chez qui vous avez acheté votre nom de domaine et inscrire les nouveaux DNS de Gloux. (lire vos mails de migration) ou allez sur aide.ouvaton.coop

Des nouvelles machines vont être intégrées à la plateforme qui est maintenant dans notre baie à nous, avec nos IP Ouvaton et nous espérons tous que les erreures 500 vont devenir rarissimes.

A suivre ... :-)
Le 04-05-2007
à 09h06
Grégoire MétralLes services de l'ancienne plate-forme vont être basculés sur Ouvaton 3 ce jour à midi. Cela va impliquer forcément:

- une perte de visibilité des sites dont les serveurs dns n'ont pas été changés. On va voir si une solution peut être trouvée temporairement.
- une copie des archives de mails des comptes de courrier xxx@ouvaton.org vers la nouvelle plate-forme et un changement des MX. Donc les propriétaires de panels qui ont des comptes ainsi vont être prévenus qu'ils auront à informer les détenteurs d'adresses emails concernés du changement de pop -> pop.ocsa-data.net. Là aussi on va voir si on peut envisager une solution.
Le 03-05-2007
à 18h03
NicoL'imap est de retour, les soucis de messagerie devraient être réglés :)
Le 03-05-2007
à 11h17
NicoVous avez pu remarquer quelques troubles supplémentaires depuis hier soir : le déménagement des serveurs de notre ancienne baie est prévu pour vendredi soir (itinéraire tenu secret ;o) et du coup l'arrêt progressif de ces derniers a commencé. Ouvaton.info a donc foutu le camp pour revenir ce matin, on a vu quelques avertissements de code sur ouvaton.coop... les relevés en IMAP et webmail sont un peu chaotiques pour les @ouvaton.org... bref, la coop migre !
Le 27-04-2007
à 13h11
NicoDes coopérateurs ont signalé ce lien à propos des erreur 500 sur les Spip fraichement migrés : http://www.guiderdoni.net/Probleme-Spip-et-php-version-4-4-6.html

Merci de faire suivre vos résultats sur les NG/forums
Le 26-04-2007
à 10h30
Grégoire MétralDes problèmes de santé ont retardé le déménagement de la baie. Normalement, cela se fera le vendredi 4 mai dans la soirée. Les derniers serveurs d'Ouvaton 2 auront donc été éteints auparavant (les redirections devraient permettre une bascule sans coupure de service).
Le 25-04-2007
à 14h47
NicoDéménagement de Redbus, donc nos anciens serveurs prévu pour jeudi et qui rejoingnent donc notre nouveau data center, et donc viendront renforcer la plateforme ouvaton3 qui en a justement besoins.
Le 23-04-2007
à 15h35
NicoErreur 500, encore et toujours... voilà heure de pointe des serveurs et c'est quasi-impraticable pour du spip par exemple en consultation et en rédaction : l'arrivée de serveurs en renfort devrait réglr le souci... donc il faut attendre le démontage final de ouvaton2 (mettez la pression pour le smigrations pas faites) et l'arrivée de ces serveurs dans notre nouvelle baie (dans la semaine je crois)
Le 18-04-2007
à 19h36
Grégoire MétralQuestion des erreurs 500, voilà ce que nous dit notre infogérant:

«Il y avait une erreur dans le script qui tue les processus trop gourmands (en temps) qui faisait du zèle. Ca a été corrigé il y a quelques jours et ce soir.
Normalement, ce script ange gardien ne fait plus d'effet de bord :) et tue juste ce qu'il faut (les mauvais php), le reste est laissé en vie.
Que la plateforme soit chargée ou pas n'a aucune influence sur ce problème.
Ce problème est réglé :) Tout est redevenu normal.»

On croise les doigts et on surveille.
Le 17-04-2007
à 23h31
Grégoire MétralVoilà ce que nous dit EiOLE à 23h25:

«Voilà, filer1 a été rebooté (79 jours d'uptime :) ). Tous les services ont redémarré :) Il y a eu 5mn d'interruption supplémentaire dû à la montée en charge rapide de la plate-forme le temps que les nodes web reprennent du service (le temps que la plate-forme s'équilibre entre les 4 nodes web). Voilà, fin de l'intervention.»
Le 17-04-2007
à 19h09
EstherSuite aux plaintes du "Filer" notre infogérant va discuter avec lui ce soir, pour qu'il n'ait plus de problème de mémoire. un fenêtre de 10 minutes, dite d'intervention, sera ouverte entre 23 heures et 24 heures.

à 23h.
Objectif: reboot de filer1. Seront impactés : tous les sites web (statique ou dynamique), le processus de migration sera arrêté.Les stats web (awstats), phpmyadmin, webmail ... seront indisponibles.
Le 17-04-2007
à 13h19
NicoMessage de l'IG :
filer1 (celui qui s'occupe des data web) a eu bobo ce matin.
La partie du filer qui s'occupe de locker les fichiers s'est trouvé à court de mémoire. Par défaut FreeBSD (sur i386) limite les processus à 512M, ce qui est trop peu pour le filer.
Ce matin, le processus qui s'occupe de locker les données a pris trop de RAM est s'est trouvé limité par le kernel. Normalement la limite des 512Mo n'est jamais atteinte, mais là, ce filer est très chargé :/

C'est la même panne qu'il y a 3 semaines.

J'ai trouvé le moyen de dépasser cette limite :) Par contre, cela nécessite de rebooter le filer :/ Je propose une intervention soit ce soir à 23h. Objectif: reboot de filer1. Sera impacté : tous les sites web (statique ou dynamique), le processus de migration sera arrêté. Les stats web (awstats), phpmyadmin, webmail ... seront indisponibles.

Fenêtre d'intervention: 23h-00h
Durée d'interruption du service: 10mn
Le 17-04-2007
à 11h35
Grégoire MétralC'est revenu. Pas encore de nouvelles concernant la cause de cette coupure.
Le 17-04-2007
à 09h40
Grégoire MétralLa plate-forme est down depuis ce matin, 6h30. Pas d'autres informations pour l'instant... Désolés.
Le 15-04-2007
à 17h45
Grégoire MétralDes sites semblent disparaître... Encore un coup du hacker qui se promène sur Ouvaton 2? Pour celles et ceux qui ne l'ont pas fait: migrez au plus vite!
Le 03-04-2007
à 23h49
Greg[migration] phpMyadmin est revenu :-)
Le 03-04-2007
à 22h46
Greg[migration] phpMyAdmin semble avoir des problèmes. On attend des nouvelles d'EiOLE.
Le 03-04-2007
à 08h42
Grégoire MétralLe webmail Squirrel est revenu. Reste un problème de stats sur Ouvaton 3...
Le 02-04-2007
à 10h17
Grégoire MétralC'est revenu, sauf le webmail qui semble encore dans les choux. Merci de signaler sur admin-panel [at] listes.ouvaton.coop s'il y a d'autres services en rade.
Le 02-04-2007
à 08h45
Grégoire MétralC'est de nouveau la cata au niveau du serveur web et du serveur mail. On attend des nouvelles...
Le 01-04-2007
à 23h16
NicoLe webmail ou la liaison webmail/boites n'a pas l'air de fonctionner dans la foulée... pas de news pour l'instant.
Le 01-04-2007
à 17h04
EstherNous avons fini par avoir un des Eiole's boys au téléphone. Ils s'y sont collés... un problème avec Apache... qui retombait à chaque fois.

Depuis 16 heures ça remarche.
OUF
Le 01-04-2007
à 14h21
NicoBon l'IG est sur le coup de la panne... ils cherchent. L'info technique dit "Apache plante tout seul sur les 3 nodes dans les 2 minutes qui suivent sa remise en route."
Le 01-04-2007
à 03h28
Esther3h25... Gloux, le html, est toujours en carafe... Une alerte a été envoyée aux Eiole's boys.... accès à Gloux mais pas aux sites.

En cette nuit du 1er Avril, la plateforme Gloux plus malicieuse que nous, a décidé de faire glou, glou... peut-être un poisson a happé le x... en attendant les sites migrés sont dans le schwartz cette nuit!

Les Eiole's boys, peut-être à la pêche, sont priés de retrouver le "x" inconnu et de remettre la plateforme à flots.

Bonne nuit et bon réveil aux matinaux :-)
Le 31-03-2007
à 23h18
NicoOuvaton3 en carafe ce soir pour une mauvaise date. Pas plus d'infos pour le moment, on contacte la team Eiole et on fait suivre les infos :(
Le 31-03-2007
à 14h01
Grégoire MétralC'est la dernière qui sonne pour migrer! Vous avez jusqu'à minuit ce soir, 31 mars, pour lancer votre migration. Dépêchez-vous!
Le 31-03-2007
à 14h01
Greg[migration] C'est la dernière qui sonne pour migrer! Vous avez jusqu'à minuit ce soir, 31 mars, pour lancer votre migration. Dépêchez-vous!
Le 29-03-2007
à 23h16
GregNous avons (enfin!) reçu les certificats wildcard SSL, ce qui évite les messages d'erreur qui ennuyaient pour les accès sécurisés (POP, IMAP, phpMyAdmin et webmail). Enjoy!
Le 15-03-2007
à 15h46
Greg[migration] Il y a eu un souci avec les sites SPIP aujourd'hui. C'était dû à une mise à jour de PHP (4.4.6) qui semble-t-il ne provoquait pas les améliorations désirées (c'est peu dire...) :-( Nous sommes revenus en arrière.
Le 15-03-2007
à 09h20
Greg[migration] La migration a été temporairement bloquée, en attendant que quelques-unes de nos anciennes machines soient transférées dans la nouvelle baie. Les serveurs actuels pour Ouvaton 3 sont déjà à pleine puissance...
Le 14-03-2007
à 14h34
Greg[migration] On vient de mettre en place la gestion des cgi sur Ouvaton3.

Donc à partir de maintenant le répertoire /cgi-bin (s'il existait sur l'ancien site), sera copié avec les données web au cours de la phase 2. Si le répertoire n'existait pas il sera quand même créé un répertoire /cgi-bin à la racine du site web.

Tout fichier qui sera présent dans ce répertoire sera interprété comme étant un script cgi (donc une image en .gif ne sera pas affichée). Enfin chaque fichier présent dans ce répertoire devra avoir avec des droits d'exécution (minimum 700).
Le 05-03-2007
à 13h18
Greg[migration] Ça devrait aller de soi, mais ça va mieux en le disant: Ne donnez jamais vos mots de passe par e-mail! Par exemple, si vous utilisez le courriel qui récapitule tous vos noms d'utilisateurs et mots de passe pour demander des précisions, n'y répondez pas en laissant l'intégralité des mots de passe!
Le 03-03-2007
à 22h46
Jerome[migration] Concernant les problèmes MySQL:
un logiciel est devenu instable suite aux nombreuses connexions aux bases de données. Il y aurait un bug de fonctionnement dans le logiciel. Nous sommes sur le problème depuis quelques jours. Nous avons patché le logiciel. Toute l'infrascture web a été mise à jour.
Le problème serait confiné. C'est à confirmer dans les jours qui viennent.
Désolé pour les interruptions de services liées à ce bug :/
Le 02-03-2007
à 11h31
Greg[migration] De nouveau problème MySQL. Pas d'info sur ce qui coince...
Le 27-02-2007
à 14h05
Grégoire MétralTous les messages de problèmes techniques concernant la migration et la nouvelle plate-forme peuvent être lus sur migration.ouvaton.info.

edit par nel: migration.ouvaton.info n'existe plus j'ai backporté les infos ici taggé [migration]
Le 27-02-2007
à 14h03
Greg[migration] Pas de réponse directe, mais il semble que ce soit revenu... Si j'en sais plus, j'informe ici.
Le 27-02-2007
à 13h33
Greg[migration] Problème MySQL sur Ouvaton 3 signalé par les coopérateurs. On attend la réponse d'EiOLE.
Le 19-02-2007
à 21h48
jeromeL'intervention prévue ce soir n'a pas eu lieu. A cause d'un mauvais modèle de RAM, nous n'avons pu effectuer les interventions prévues ce soir. Nous avons préféré décaller aussi l'intervention sur le serveur de listes de discussion. Nous allons reprogrammer ces interventions prochainement, vous serez informés tout pareil.
Désolé pour cette fausse alerte :/
Le 18-02-2007
à 12h20
Grégoire MétralLe hacker qui se balade sur nos sites semble continuer à sévir. Nous le traquons, mais il nous faudra peut-être arrêter le serveur web un moment pour fermer la porte par laquelle il est entré. Nous vous tiendrons au courant.
Edit (jerome - 19/02/07): l'attaque est contenue depuis dimanche midi. Cependant, des sites qui ont des failles de sécurité continues d'en être victime en se faisant défacé. Nous sommes attentifs à ces attaques et prévenons les coopérateurs victimes de ces attaques.
Le 18-02-2007
à 10h55
RodéricDes failles de securité chez certains sites de certains coopérateurs ont été exploité, résultat certains sites ont été éffacé. Nous allons donc prendre des mesures d'urgences pour sécuriser Ouvaton. Eiole est sur le pont, l'enquette continu... :/
Quelque risques de perturbation web et autre...
:-(
Le 17-02-2007
à 16h59
jeromeInterventions lundi soir (19 février 2007):
Dans la fenêtre 21h-23h nous allons réaliser les opérations suivantes:
* ajout d'un disque dur dans le nouveau serveur des listes de discution (ml.ocsa-data.net) (un des 2 disques durs a rendu l'âme il y a 1,2 semaines)
Impacts: retard dans la distribution des listes de discussions, interface web de configuration et archives indisponible

* ajout de RAM dans le serveur mysql. Nous allons ajouter de la RAM dans le serveur MySQL d'Ouvaton v3. Si vous êtes sur Ouvaton v2, vous n'êtes pas concerné. Seul les béta-testeurs Ouvaton v3 sont concernés.
Impact: les sites web qui utilisent des bases de données ne pourront plus se connecter sur le serveur mysql (127.0.0.1).
Tous les autres services fonctionneront (pages statiques, emails, ftp ...). Toute la partie base de données (création, suppression, changement de mot de passe ...) du panel Gloux sera elle aussi indisponible.
Je reposterais une fois l'intervention finalisée.
Le 17-02-2007
à 16h43
jeromeGrande vague d'attaque sur Ouvaton v2.
Un script "c99" est responsable de tout celà.
Il y a énormément de sites touchés. Si votre site est inaccessible, signalez-vous sur admin-panel [at] listes.ouvaton.coop.
Nous resons en alerte.
Edit (22h23): tous les scripts troués (c99.php) ont été désactivés. Le CA va envoyer un email à tous les coopérateurs touchés d'içi quelques jours (ils viendront dire quand ce sera fait), si vous n'êtes pas dans la liste et que vous trouvez quelque chose de bizarre sur votre site, contactez-nous.
Nous avons trouvé un porte d'entrée utilisée par le hacker. Nous l'avons fermé (un site d'un coopérateur).
Fin de l'incident.
Le 15-02-2007
à 14h23
jeromeIntervention sur NS2 terminée. Tout c'est très bien passé.
Les services impactés (voir post ci-dessous) ne l'ont été que durant une quinzaine de minutes.
Fin de l'intervention, tous les services sont UP et fonctionnent :)
Le 15-02-2007
à 02h25
jeromeIntervention sur NS2: nous allons mettre à jour le système d'exploitation de ce serveur jeudi 15 février entre 14h et 15H (heure Française). Entre 14h et 15h, ce serveur sera retiré de la production pour pouvoir effectuer cette mise à jour. Tous les services (DNS primaires, DNS secondaire d'Ouvaton v2, MX secondaire d'Ouvaton v2, ouvaton.info) vont être indisponibles. Aucune perturbation sur ouvaton v2 ne sera à prévoir, les NS1, NS2, MX1 seront là pour assurer la continuité du service.
Je re-posterais une fois l'opération effectuée et les services rétablis.
Le 15-02-2007
à 16h11
Greg[migration] La deuxième phase de tests est en cours -- les "gamma" tests comme dit Esther :-). Près de 200 coopératrices/teurs se sont proposés pour migrer leurs sites. Dans quelques jours, la migration de tous les comptes devrait pouvoir commencer.
Le 07-02-2007
à 20h10
Grégoire MétralIl y a eu un petit souci avec les sous-domaines de ouvaton.org, suite aux tests de migration (plus complexes que pour les hébergements en nom propre). Il a fallu que les DNS se propagent à nouveau après le rétablissement. C'est maintenant chose faite. Pensez à vider votre cache avant de tester à nouveau. Désolés pour le dérangement...
Le 01-02-2007
à 15h34
Grégoire MétralLes listes semblent revenues. Interface web disponible, mais ce qui a été posté depuis ce matin semble perdu :-(

Edit: ça semble arriver petit à petit :-)
Le 01-02-2007
à 14h08
Grégoire MétralQuelques infos de la fin de matinée:

«Le RAID entre les 2 disques durs est cassé. Un des 2 disques durs est HS, donc freeze du serveur (attente de lectures sur ce disque qui est mort). Mais le pire, c'est que le 2ème disque dur (RAID soft) a été déclaré inconsistent (désynchronisé) avec le RAID (suite au reboot), pour une cause encore indéterminée.»

Un backup des données a été fait, puis la reconstruction a commencé, mais elle a échoué, d'où l'opération chirurgicale en cours. Plus d'infos quand on en a.
Le 01-02-2007
à 13h20
Grégoire MétralCette fois, j'en sais un peu plus. L'un des disques RAID est mort. L'opération chirurgicale est en cours, mais ce ne sera probablement pas rétabli avant 15h cet après-midi.
Le 01-02-2007
à 12h13
Grégoire MétralCette fois, c'est les listes (migrées) qui posent problème. Impossible d'accéder aux interfaces web, et les messages ne semblent pas arriver (ou alors au compte goutte). On enquête.
Le 01-02-2007
à 10h08
Grégoire MétralFTP rétabli.
Le 01-02-2007
à 09h09
Grégoire MétralProblème FTP. En raison de tests sur la nouvelle plate-forme, des ajustements ont eu lieu dans les noms de serveurs, et ça a entraîné quelques effets de bord. Ça devrait être corrigé sous peu.
En attendant, utilisez l'IP 62.233.46.136 à la place de ftp.ouvaton.org.
Le 30-01-2007
à 09h12
Esther[migration] Une bande de joyeux testeurs s'est lancée ce week-end avec leurs vrais sites... et à part les
Le 28-01-2007
à 19h46
RodéricLe serveur ftp est repartis.
Les logs remplissaient le DD. Un peu de ménage et c'est repartis.
Merci Azuria.
Le 28-01-2007
à 18h35
Grégoire MétralJe reviens de Paris, et je vois dans les messages que le ftp est down. Azuria a été prévenu pour redémarrer le serveur. Je ne sais pas où ça en est.
Le 25-01-2007
à 17h18
Greg[migration] La migration va bientôt commencer.
Le 15-01-2007
à 19h51
Grégoire Métral1. Statistiques
Jean-Marie a stoppé le script de génération des volumes: si, il y a 6 mois, cela prenait environ 7 heures pendant la nuit pour la génération, aujourd'hui il n'a pas fait le tiers de son travail jusqu'à 15h :-( Impossible de continuer à charger comme ça les machines, même si ce n'est pas cool pour la coop de ne plus avoir ces stats...

2. Lenteurs
La conf de MySQL a été optimisée, la charge est très basse, mais les lenteurs persistent. Probablement le filer qui pédale quand il doit relayer les mails. On continue à suivre l'affaire, mais on n'a pas encore l'accès à toutes nos machines...
Le 15-01-2007
à 10h53
Grégoire Métral et EstherAzuria nous a transmis une partie des clés nécessaires pour que nos données nous soient visibles et pour faciliter la migration afin que le travail de passage de nos services vers la nouvelle plate-forme se fasse en coopération. Les relations entre techniciens sont complexes et nous pensons qu'il ne faut pas prendre les dérapages au pied de la lettre :-). Nous allons tous oeuvrer pour une sortie vers le haut.
Le 15-01-2007
à 10h50
Grégoire MétralLenteur des sites faisant appel à MySQL ce matin. On enquête (voir message qui suit).
Le 11-01-2007
à 13h22
Grégoire MétralAzuria procède actuellement à un check de la base de données. Ça devrait durer encore quelques minutes.
Le 11-01-2007
à 09h05
Grégoire MétralLa lenteur liée à MySQL semble résolue. Azuria parlait juste de "piste sérieuse", mais on n'en sait pas plus. Il y a eu visiblement un reboot.

[Edit] Quant aux mails envoyés depuis la plate-forme -- fonction mail() et webmail, c'est Azuria qui l'avait coupé en raison de trop nombreuses tentatives de spam. Ils le rétablissent, mais pronostiquent de nouveaux problèmes cet après-midi...
Le 10-01-2007
à 21h03
Grégoire MétralLenteurs toujours, pour les sites faisant appel à des requêtes aux bases de données. Et le SMTP semble hors service ce soir. Azuria est prévenu et a été relancé aujourd'hui. Ils n'ont pas répondu à nos sollicitations d'hier soir :-(
Le 09-01-2007
à 19h37
Grégoire MétralWS8 est reparti, mais tous les sites qui font appel à MySQL ont des temps de résolution beaucoup trop longs. Le serveur MySQL semble très loin de la saturation... Azuria est contacté, nous attendons des nouvelles.
Le 09-01-2007
à 18h39
Grégoire MétralWS8 tombe régulièrement. Azuria nous annonce un problème de nfs: le nfs se monte et se démonte, et du coup apache s'arrête et il n'a plus de données. Visiblement, aucune solution jusqu'ici, puisque WS8 est retombé en fin d'après-midi.

Nous attendons d'autres nouvelles et une solution d'Azuria.

Désolé pour ces désagréments et les lenteurs qui en résultent.
Le 08-01-2007
à 16h28
Grégoire MétralLe serveur web tombé a été remonté au milieu de la nuit. Tout s'est bien passé... jusqu'à cet après-midi où il est tombé à nouveau :-( Azuria est prévenu et nous avons demandé un diagnostic plus approfondi. L'embêtant, c'est que c'est une de nos meilleures machines, donc le ralentissement se fait sentir. Désolés.
Le 07-01-2007
à 22h47
NicoUn des serveur est arrêté depuis cet après-midi (WS8). L'infogérant est prévenu.
Le 04-01-2007
à 07h35
Grégoire MétralLes explications d'Azuria vers 19h hier soir:

«Certaines personnes peuvent encore voir des ralentissements mais c'est normal: elles sont sur les serveurs qui n'ont pas encore jeté du trafic vers les autres serveurs du cluster. J'explique parce que c'est pas évident. Il y a plusieurs serveurs sur un cluster; tous n'ont pas le même poids. Certains démarrent à 1 Mb d'autres 2 Mb 3 ou 4 ou 5 etc... Lorsque des serveurs sont sollicités, c'est qu'il y a beaucoup de trafic sortant, du coup un des serveurs entre dans le cluster, celui-ci décharge les autres au fur et à mesure. Cette opération n'est pas instantanée, cela prend généralement 1 heure pour que tout soit stable. Là il reste encore un ou deux serveurs très sollicités qui vont peu à peu être dispo.

Pour ce qui est du 1er ralentissement, cela était dû à un serveur manquant sur le cluster, le second qui a suivi de 17h50 à 18h45 c'était un trop plein de mail. Je n'ai pas investigué plus longtemps puisque la file semblait se vider.»

Merci à eux.
Le 03-01-2007
à 17h39
Grégoire MétralLe serveur web est reparti en prod, mais il y a un afflux de mail sortant. Spam? Voeux de bonne année? Azuria est sur le coup.
Le 03-01-2007
à 16h06
Grégoire MétralAzuria nous signale l'arrêt d'un serveur web, d'où quelques ralentissements. Redémarrage en cours et diagnostic.
Le 28-12-2006
à 02h19
EstherAzuria nous prévient qu'une opération de maintenance sur les liens intersites est prévue cette nuit entre 1:00 et 2:00 du matin (jeudi 28 décembre).

Elle va entraîner une coupure de notre réseau qui ne devrait pas durer plus d'un quart d'heure.
Le 19-12-2006
à 16h07
NicoArrêt du filer dans quelques minutes... pour tests matériel notamment
Le 19-12-2006
à 15h00
Grégoire MétralLe test de n'ouvrir la plate-forme aux mails sortants qu'à certains moments (et les envoyer par paquets), ne semble pas concluant -- beaucoup d'effets de bord indésirables. Nous avons demandé à Azuria de rétablir la fonction en permanence, ce qui aura pour conséquence de ralentir le tout au moment des grands envois en masse (mailings et spams).
Le 19-12-2006
à 11h01
RodéricLa fonction mail de php a été désactivé provisoirement. Cela permet de voir si c'est cela qui plombe la plateforme (relais spam).
Même les souscription sont bloqué !
Nous alons voir comment concilier la chevre et le choux...
:-/
Coopérativement
Rodéric
Le 18-12-2006
à 17h39
Grégoire MétralLenteurs: le retour... :-( Azuria est sur le coup. La seule vraie manière de régler cette affaire, c'est de désactiver la fonction mail() de PHP: fini les formulaires (troués) et les mailings en masse (Cf. les "6000 abonnés" avoués sur les forums...). Tant que tout passe par le filer, ça posera des problèmes.


Alors en attendant, on serre les fesses et on attend la nouvelle plate-forme. Azuria ne nous a pas encore donné les clés pour faire la bascule :-/
Le 16-12-2006
à 11h20
NicoA priori fonction mail ok aujourd'hui... peut-être question de retard dans la distribution ?
Le 15-12-2006
à 18h02
NicoIl semble y avoir des problèmes sur l'envoi de gros mailings. Nous pensons à un effet induit par la manip hier d'azuria, nous voyons avec eux
Le 14-12-2006
à 23h21
GregAzuria a bossé sur le serveur MySQL, qui mettait beaucoup de temps à répondre. Ce soir, le temps de réponse est tout à fait correct. Il faudra vérifier en pleine charge demain durant la journée.
Le 13-12-2006
à 18h09
GregFTP up.
Le 13-12-2006
à 17h45
GregFTP down. Azuria est prévenu.


[C'est quand même lassant de se répéter...]
Le 11-12-2006
à 20h41
GregUn chouia mieux au niveau des performances. Azuria, averti dans l'après-midi, a probablement mis ses pattes là-dedans. Mais nous n'avons pas (encore) de retour sur l'intervention.
Le 11-12-2006
à 16h39
GregLes 4 serveurs web ont eu un gros creux vers 15h45, mais semblent s'être rétablis. Par contre, la plate-forme est très ralentie (sites dynamiques et statiques). Nous enquêtons.
Le 11-12-2006
à 15h43
GregLenteur ou serveurs web down? Je n'ai plus accès aux stats pour vérifier... Des nouvelles prochainement.
Le 06-12-2006
à 12h42
GregLes lenteurs, après s'être résorbées quelques jours, semblent repartir. Un serveur Apache s'est arrêté, mais le problème, selon Azuria, semble venir du filer. Ils sont sur le coup.
Le 01-12-2006
à 13h28
RodéricBeaucoups de lenteurs...
:-(
On regarde, Azuria est prévenu....
:-/
Le 30-11-2006
à 11h06
GregUne adresse hébergée par Ouvaton recevait des milliers de messages (bounces ou spam?). La gestion DNS a été suspendue en attendant que le problème soit réglé. La file d'attente s'est résorbée et il semble que tout se passe mieux actuellement. On était monté à 1500 mails/min., c'est redescendu dans les 300 mails/minute.
Le 29-11-2006
à 12h11
GregRetard dans les mails. Le MX1 se remplit et prend beaucoup de temps à passer le relais au MX2 (qui lui a l'air de très bien fonctionner). On a demandé à Azuria de nous faire un topo sur cette histoire et de réparer.
Le 27-11-2006
à 21h05
GregFTP up.
Le 27-11-2006
à 20h21
GregFTP dans les choux depuis env. 19h30. Azuria est prévenu: nous attendons.
Le 24-11-2006
à 12h21
RodéricAzuria a réparé, merci.
On vas regarder de plus pret les tenants et les aboutissants de cette panne.
Coopérativement
Le 24-11-2006
à 11h47
RodéricLe web est innacessible, Azuria est sur le coup. Un probleme de routage a premiere vue.
Le mail est OK, le ftp remarche depuis hiers....
+ d'info dès qu'on les as...
:-/
Coopérativement
Rodéric
Le 23-11-2006
à 20h23
NelUn peu de nouvelles d'azuria, ils auraient tenté de rebooter la machine qui est en train de vérifier son disque et donc indisponible
Le 23-11-2006
à 17h44
NelFTP down, la machine ne réagit plus, azuria est prévenu
Le 21-11-2006
à 15h12
NelMysql up! J'ai pas encore les détails
Le 21-11-2006
à 14h54
NelMysql down! Azuria est prévenu à priori tout est par terre site avec base de donnée et ml.
Le 10-11-2006
à 08h22
GregProblèmes de lenteur web signalés ces derniers jours. Difficile de déterminer la cause étant donné que ce n'était pas toujours reproductible. Il semble que quelques-uns des serveurs s'étaient arrêtés pour une raison inconnue. Nel a contacté Azuria qui en a redémarré trois: ça devrait aller mieux.
Le 26-10-2006
à 16h53
EstherL'accès web dysfonctionne à nouveau. Azuria a reçu immédiatement l'info sur plusieurs canaux.

Nous sommes sur le coup...
aussitôt que nous avons plus d'informations... elles seront ici.

Azuria, Antony a été sur le coup très vite. filer 1 tousse.
Le 26-10-2006
à 15h12
EstherL'accès web disfonctionne à nouveau. Azuria a reçu immédiatement l'info sur plusieurs canaux.

Nous sommes sur le coup...
aussitôt que nous avons plus d'informations... elles seront ici.
Le 25-10-2006
à 11h23
RodéricAzuria s'est réveillé et a redémarré le serveur Mysql...
Normalement tout devrait être OK.
:-/
Coopérativement
Le 25-10-2006
à 01h55
NelEt comme une bonne semaine en suit toujours une autre voici la bonne nouvelle de la soirée. Mysql est down, le server respire encore mais le service ne répond pas, tout ca très proprement, c'est un peu bizarre, c'est comme si il était juste arrêté.

Azuria est prévenu, deux options soit c'est rien du tout soit c'est une panne matérielle.
Le 22-10-2006
à 03h20
EstherAzuria a fini par intervenir sur notre plateforme dans la nuit de vendredi à samedi.Il semble d'après mes test que la queue des mails soit enfin résorbée ce soir.

Le 20-10-2006
à 19h56
Gregws8 est reparti vers 18h50. Merci Robert de me l'avoir fait remarquer! Au niveau des performances, ça semble s'améliorer grandement...
Le 20-10-2006
à 17h27
GregAzuria a bougé! Voici leur message:

«Nous avons rebooté les deux machines. Vous allez peut-être encore constater des lenteurs mais cela vient du fait que le nouveau loadbalancer (serveur Iron) continue à orienter les requêtes vers les mêmes serveurs.
Il est à noter qu'auparavant, la machine qui se chargeait du loadbalancing était NB0, mais à présent il s'agit d'un serveur Iron. Il est plus performant sur certains points mais il a un désavantage, qui est que chaque utilisateur est orienté vers le même serveur par le loadbalancer pour des raisons de gestion de session. Donc il se peut que vous soyez "accroché" à un serveur surchargé sans vous rendre compte que les autres serveurs fonctionnent. C'est pour cela que nous avons été étonnés hier car de notre côté les sites fonctionnaient.
Quoiqu'il en soit, cela ne change rien au fait qu'il faut comprendre pourquoi ces deux machines se sont éteintes. Nous n'avons pas trouvé de trace dans le fichier log, et nous allons regarder pour voir ce qui a pu se passer.
»

Personnellement, je ne trouve pas que la différence s'en ressente beaucoup. D'ailleurs, ws8 semble être retombé après quelques minutes seulement. Quant au mail, il semble encore un peu retardé: mêmes causes? Il semble qu'il y a eu un gros pic pendant la nuit: peut-être la queue se vide lentement...
Le 20-10-2006
à 08h27
GregDeux serveurs web (ws7 et ws8) se sont arrêtés hier dans l'après-midi. Plusieurs appels au secours ont été lancés auprès d'Azuria, sur la liste de communication ainsi qu'à l'entreprise elle-même. Aucune réponse à cette heure.
Le 19-10-2006
à 16h37
NelComme prévu même problème qu'hier depuis 15h les serveurs web sont à bout de souffle, 800 de load, il y a un point de congestion et on attend qu'Azuria se décide à utiliser ses accès exclusifs aux machines pour regarder ce qui bloque.

Azuria n'a pas encore daigné répondre à nos solicitations sur le problème.
Le 18-10-2006
à 21h16
NelRalentissement sur le web de 16 à 19 hier et aujourd'hui la source est encore inconnue et il est probable que ca va recommencer demain. Azuria est prévenu.
Le 07-10-2006
à 04h46
EstherPremière page du site avec le nouveau logo d'Ouvaton
Le 06-10-2006
à 23h41
NelVoilou une nouvelle tête pour ouvaton.info, réalisé par Vincent Fleuranceau que certains d'entre vous ont sans doute croisé sur admin-panel ou sur les newsgroup.

Librement inspiré par la nouvelle charte graphique d'ouvaton.

Merci à lui.
Le 05-10-2006
à 03h22
NelDepuis le w-e dernier il y a un retard de quelques minutes à 2h dans la livraison des mails.

La faute à une enorme quantité de mail qui cherche à être envoyé Graph de mail envoyé.

Mais qu'elle est la source d'expédition de ces mails (site hacké, autorépondeur qui boucle, bounce incontrolé...?) me direz-vous, et bien c'est que l'on demande à nos infogérants absent qui brillent par leur silence. Un simple coup d'oeil suffirait, dommage.
Le 03-10-2006
à 11h42
GregToujours des problèmes mail non résolus, avec de gros pics dans la file d'attente. On attend qu'Azuria réagisse...
Graphe de la file d'attente
Le 02-10-2006
à 23h30
NelVoilà la migration est effectuée, ouvaton.info ns1.ouvaton.org ns2.ouvaton.net et mx2.ouvaton.net sont sur un serveur tout neuf pas loin de redbus.

Prochaine étape migration des newsgroups, merci à Jérome qui a migré le serveur quelques heures avant qu'eloïse s'éteigne pour la dernière fois de sa longue vie (depuis les débuts d'ouvaton quand même).
Le 02-10-2006
à 12h42
Nelmigration du mx2/ns2 du Téléhouse vers un autre datacenter dans l'après-midi

99,99% des coopérateurs n'ont rien à faire et ne remarqueront rien.

Résultat les adresses ip des mx2 et ns2 vont changer. Pas de panique les deux vont fonctionner pendant un moment et aucune action n'est à effectuer pour ceux qui utilise les dns ouvaton.

Pas de problème non plus pour ceux qui ont donné l'adresse ip à leur registrar (genre gandi) ca se met à jour tout seul.

Et enfin pas de problème au niveau de vos panels, on se charge de mettre à jour.

Donc qui a quelque chose à faire ?
Ceux qui gère leur dns eux même hors ouvaton devrons changer l'adresse ip du mx2 s'ils l'ont hardcodé mais c'est peu probable. Ca n'a rien d'urgent vous pouvez le faire dans la semaine. Ca concerne 0.01% des coopérateurs donc surement pas vous.

La nouvelle ip:
194.88.156.84 => NS2 / MX2
Le 01-10-2006
à 16h16
NelBon il n'y a pas eu de catastrophe juste un gros flot de mail et un retard dans la diffusion.

Tout semble ok depuis hier.
Le 30-09-2006
à 12h02
NelPas de nouvelles d'azuria.

Certains mails arrivent avec du retard, notamment au niveau des ML, d'autres non. Toujours une grosse activité.

Le 29-09-2006
à 21h22
NelOn dirait qu'un problème se prépare au niveau des mails, les mails sont en retard, signe d'une fil d'attente trop pleine. Pourtant sur la journée on est à 360 mail/min ce qui est beaucoup mais pas énorme.

Azuria est prévenu. More to come...
Le 21-09-2006
à 20h31
NelMessage cryptique décrivant ce que pourra faire la prochaine version de php:

Les options de compilation proposée des libs pour la nouvelle version de php 4.4.4 seront

'--with-openssl' '--with-zlib' '--enable-bcmath' '--with-bz2' '--enable-calendar' '--with-curl' '--with-imap' '--with-cdb' '--with-inifile' '--with-dom' '--enable-exif' '--enable-ftp' '--with-gd' '--with-mcal=/usr' '--with-mcrypt' '--with-kerberos' '--with-imap-ssl' '--with-mhash' '--with-mime-magic' '--with-mysql' '--with-ncurses' '--with-snmp' '--enable-sockets' '--with-expat-dir=/usr' '--enable-sysvmsg' '--enable-sysvsem' '--enable-sysvshm' '--with-xmlrpc' '--with-iconv' '--enable-xslt' '--with-zip' '--enable-memory-limit' '--with-jpeg-dir=/usr' '--with-tiff-dir=/usr' '--with-iconv' '--disable-debug' '--disable-rpath' '--enable-inline-optimization' '--with-freetype-dir=/usr' '--enable-soap' '--with-regex=system' '--with-xmlrpc=shared' '--with-layout=GNU' '--enable-dio' '--enable-xslt' '--with-dom' '--with-dom-xslt' '--with-dom-exslt' '--with-xslt-sablot' '--enable-mbstring'

Si vous souhaitez d'autres fonctionnalités vous pouvez nous en faire part sur le forum tech.aide.
Le 21-09-2006
à 01h08
RodéricLa mise à jour Php est reporté au 29 septembre.... :-/
Coopérativement
Le 20-09-2006
à 00h50
RodéricUpgrade de php prévue prochainement. Nous passerons de la version 4.4.2
à la 4.4.4
Selon Azuria, ce pourrait être samedi 23 septembre (ou un peu plus tard...)

Pour plus de détails sur les changements entre ces deux versions :
http://www.php.net/release_4_4_4.php

Cooopérativement

(et texte © Nico...)
;-)
Le 17-09-2006
à 15h57
EstherAttention : certaines bases ont dû être renommées (à cause de lettres
accentuées dans le nom des bases)

Si vous avez besoin d'aide allez sur tech.php-mysql
Le 17-09-2006
à 08h29
RodéricCette nuit nous sommes passé en Mysql 4.1.
Normalement cela devrait améliorer nos sites dynamiques....
Samedi prochain, upragrade Php...
:-) (merci Azuria)

Coopérativement
Le 16-09-2006
à 23h45
RodéricMise à jour programé du servur MySQL :
La mise a jour c'est bien passé mais il y a plus de 500.000 tables à vérifier à l'issue de la mise à jour, c'est ça qui prend le plus de temps...

D'autre part, certaines bases ont dû être renommées (à cause de lettres accentuées dans le nom des bases), ce qui retarde le processus.

Voilà les infos qu'on a à l'heure qu'il est.

Coopérativement
Le 09-09-2006
à 20h51
EstherLa Plateforme est lente, il y aurait encore des problèmes de sites squatés pour faire du spam.

Nous insistons au près d'Azuria pour que cette situation ne perdure pas.
Chacun peut aussi se responsabiliser en mettant ses logiciels à jour... les Dotclear et phpbb... vous n'utilisez plus vos installations.... mais d'autres les utilisent.

allez supprimer les trackball qui sont du spam.
Le 03-09-2006
à 16h28
AlexisToutes les bases sont remises en place. En cas de problème persistant, merci de contacter admin-panel.
Le 03-09-2006
à 13h23
AlexisQuelques bases de données viennent d'être supprimées par erreur au cours d'un nettoyage des données orphelines (comptes supprimés sans que les données le soient). Nous sommes en train de remettre en ligne la sauvegarde de ce matin. Toutes nos excuses aux personnes concernées.
Le 29-08-2006
à 23h22
AlexisDes messages anciens (jeudi, vendredi, samedi) commencent à être distribués, il y a encore 400 000 messages de ces jours-là qui ont été mis de côté et seront réinjectés dans le circuit demain, lorsque la file en cours qui est à 62 000 mails sera épuisée.
Le 29-08-2006
à 13h45
RodéricAzuria viens de finire son intervention.
Resultat : 2 500 000 mails (environ) acumulé sur les differentes queues !!!!
Les boucles fautives ont été supprimées et il faudras minimum 6h pour digerer tout.
Les mails en partances d'Ouvaton (SMTP) sont eux aussi retardées.
Normalement quasi aucun mail n'est perdu (au pire 100 sur les