Some systems are experiencing issues

Stickied Incidents

Tuesday 15 August 2023

nitter.fdn.fr Instance Nitter : erreur « Tweet not found »

Suite à de nouveaux changements côté Twitter (encore…), toutes les instances sont bloquées car la consultation des tweets nécessite à un compte. Le problème est identifié sur le Git de Nitter, ticket 983. La recherche ne fonctionne également pas.

L'équipe adminsys

Sunday 23 July 2023

lns22.fdn.fr xDSL / FTTH : certaines destinations sont injoignables

Certains adhérents nous ont remontés que certaines destinations pouvaient être injoignables, aussi bien en HTTP/HTTPS, Ping ou SSH. Exemples non exhaustifs : irc.geeknode.org, github.com, linuxfr.org, sa.debian.org…).

Vers 23:30 le 23/07/2023 les quelques adhérents ayant le problèmes ont été exclu de l'accélération noyau L2TP.

Le défaut semble se situer dans la gestion de la route retour entre les LNS. Exemple : routeur adh > LNS11 > GWx > LNS22. En désactivant l'accélération sur LNS22, le défaut disparaît.

L'accélération noyau a été laissé active afin que le mainteneur L2TPNS puisse investiguer. Si vous rencontrez un problème similaire, n'hésitez pas à nous en faire part par e-mail via support (a) fdn.fr ou via les messageries instantanées IRC/Matrix.

L'équipe adminsys

  • La supervision a été mise en place le 21/08 dans la nuit. Ainsi dans le cas où le nombre de tunnel pour chaque LNS vers les LAC Ielo n'est pas strictement 4, on recevra un e-mail pour agir.

    Un ajout de logs dans L2TPNS en cas de souci pour avoir plus de billes lors de la création des tunnels L2TP a été rajouté et une tentative de correction de ce bug hypothétique également.

    Nous soupçonnons de plus en plus un bug dans la gestion des tunnels L2TP au sein du cluster :

      1. Changement d'IP sans créer le tunnel L2TP sur le LNS secondaire
      1. Le tunnel est créé mais vers la mauvaise IP.

    Quelques anciens tunnels L2TP fantômes vus par le noyau mais pas par L2TPNS ont été constaté sur LNS22 (secondaire), ce qui est visiblement sans incidence mais peut-être également un bug.

    L'accélération a été réactivée sur les deux LNS pour tout le monde vers 14:30 en incluant les modifications indiqués plus haut.

    L'équipe adminsys FDN

    • 15/08/2023 00:33 : nouvelle coupure impactant certaines lignes. L'accélération noyau a de nouveau été coupée sur le LNS22 vers 07:48.

    Le problème semble aléatoire mais ne se produire que sur le LNS22 qui est le secondaire et avec l'accélération noyau Linux active sur les deux LNS. Nous avons de quoi mettre en place une supervision pour détecter et agir pour corriger, le temps de trouver l'origine de la panne.

    Hypothèses :

      1. un défaut dans la gestion du cluster entre les deux LNS lorsque l'accelération noyau est active dans L2TPNs ;
      1. un bug du noyau Linux.

    Dans le fonctionnement on a un mirroir dans le noyau Linux des tunnels l2tp du l2tpns et quand le problème se manifeste sur LNS22 toutes les sessions qui sont sur le tunnel en défaut sont à destination d'une des deux IP du LAC Ielo, ce qui ne devrait pas arriver. Chaque LNS a 4 tunnels : 1 tunnel vers chacun des deux IP des LAC Ielo et deux autre depuis l'IP de l'autre LNS.

    La supervision va être mise en place sous peu.

    L'équipe adminsys FDN

    • 25/07/2023 05:00 : de nouvelles traces ont été prises. Lors de la réactivation de l'accélération sur LNS22, une demie-douzaine d'IP d'adhérent ne répondaient plus au ping. RAS sur LNS11. Un tcpdump a permit de voir que lorsque ça ne fonctionne pas, les paquets sont envoyés au mauvais LAC Ielo.

    Il s'agit peut-être d'un bug dans L2TPNS ou dans le noyau Linux qui se manifeste parfois et pas pour tout le monde.

    Actuellement, l'accélération est désactivé sur LNS22 mais active sur LNS11 car aucune erreur n'a été constaté sur ce dernier.

    L'équipe adminsys

    • 24/07/2023 17:57 : désactivation de l'accélération noyau pour tout le monde suite à de nouvelles remontées

    L'accélération est uniquement active pour un adhérent afin de permettre de creuser et trouver la cause.

  • Maintenance
    Messagerie : migration de RainLoop à SnappyMail

    C'est un projet en cours depuis de nombreux mois, RainLoop n'est plus activement maintenu et SnappyMail, son fork, l'est beaucoup plus.

    La principale motivation a été une vulnérabilité découverte fin 2021, nécessitant une application d'un patch manuel par les adminsys FDN et non fourni par l'éditeur. Voir le ticket #2142 sur Github ou le blog des auteurs de la découverte pour les détails.

    La nouvelle machine sous SnappyMail étant prête, la migration va pouvoir avoir lieu. Peu de changement visuel sont à prévoir, vous n'aurez rien à faire de votre côté. Le webmail sera toujours accessible à https://webmail.fdn.fr/ et le nouveau peut déjà être testé si vous êtes curieux à https://new-webmail.fdn.fr.

    Les adminsys

    Past Incidents

    Monday 18 July 2022

    Bibliogram : erreur 502 Bad Gateway lors de consultation des profils

    Bonsoir,

    Un bug touche actuellement la visualisation des profiles, à savoir les URL du type : https://bibliogram.fdn/fr/u/. Leur consultation est donc impossible, résultant d'une erreur nginx "502 Bad Gateway". Le bug en question est consultable ici : https://todo.sr.ht/~cadence/bibliogram-issues/63 Pas de résolution prévue pour le moment. Toutes les instances sont visiblement concernées.

    Vous tenant informé.

    Bonne soirée, Votre équipe adminsys.

  • Un patch est sorti le 24/07 à 16h48. Instagram a restructuré la page web, ce qui rendait la consultation des profils impossible avec l'ancienne méthode. Une nouvellement méthode, IWeb a été mise en place, commit https://git.sr.ht/~cadence/bibliogram/commit/c2d7aca1cb9e0ebba2de3e1ef7c2327f3e118be4 pour plus d'infos. Nous avons appliqué ce patch à 1h36 le 25/07. C'est désormais fonctionnel :).

    Bonne semaine, L'équipe adminsys FDN.

  • Thursday 5 May 2022

    80.67.169.12 Timeout des requêtes DNS TCP

    Les requêtes DNS TCP en IPv4 sur ns0.fdn.fr (80.67.169.12) finissent en timeout à cause d'un bug de la version d'unbound utilisée. L'IPv6 n'est pas impacté, ni l'UDP.

    Une tâche côté adminsys est ouverte pour mettre à jour prochainement. Le résolveur ns1.fdn.fr (80.67.169.40) n'est pas impacté.

  • Incident résolu. L'équipe adminsys.

  • La machine a été mise à jour vers Debian Bullseye, la version d'Unbound n'a donc plus le bug gênant sur TCP. La prochaine étape sera le déploiement de la nouvelle configuration logicielle (dnsdist) sur les deux résolveurs, une fois qu'on aura testé et valider l'intégration dans notre gestionnaire de configurations.

    L'équipe adminsys.

  • Quelques infos, on a pas oublié ce bug promis ;-). C'est est le moment de pousser le projet DNS Over TLS et DNS Over HTTPS qui est en phase de test sur resolver.test.fdn.fr depuis bien (trop) longtemps. Nous allons donc le déployer sur les résolveurs DNS bien connus : ns0.fdn.fr et ns1.fdn.fr. C'est en cours de finalisation et de tests afin d'intégrer le tout dans nos outils (gestion des nouvelles configurations et des nouveaux paquets notamment) avant déploiement en production.

    Vous pouvez tester le resolver de test pour vous faire un idée : DoT TCP 853 : https://resolver.test.fdn.fr/ DoH TCP 443 : https://resolver.test.fdn.fr/doh TCP/UDP 53 : 80.67.169.76

  • L'IPv6 est finalement aussi concerné depuis 18h11. Seuls l'UDP en IPv4 et IPv6 sont donc fonctionnels sur ns0.fdn.fr. Toujours RAS sur ns1.fdn.fr.