Coupures Internet xDSL / FTTH collecte Ielo Lundi 26 juin 2023 12:10:00


Cher adhérents, chères adhérentes,

Des pertes de connectivités à Internet en IPv6 ou IPv4 se sont manifestés par des déconnexions et reconnexions régulières ainsi que des possibles soucis d'accessibilité en IPv4 (routage). Nos LNS semblent être en cause et plus particulièrement la partie L2TP. Le processus nous indiquait des erreurs d'allocation mémoire mais sans en trouver la cause précise pour le moment malgré quelques heures de recherches (RAM, slabs, max_size IPv6, optmem_max, nombre de sockets, nombre de routes apprises…).

Les messages en question :

For generic netlink request 6 on 24, got a netlink error: No such device
00/00 DHCPv6: could not join DHCPv6 group: Cannot allocate memory
00/00 ICMPv6: could not join all routers group: Cannot allocate memory

À noter que les erreurs « For generic netlink request 6 on 24, got a netlink error: No such device » sont toujours présentent. LNS11 étant isolé, cela va permettre d'approfondir le diagnostics et effectuer des tests.

Désolé pour ces perturbations :/.

L'équipe adminsys

RAS depuis les changements du 27/06. Ces deux actions ont sans doute permis de stabiliser : ajustement de l'option net.core.optmem_max ainsi que le blocage du compte qui avait pour conséquence de créer/supprimer des interfaces réseau et des routes en boucle.

L'option net.core.optmem_max a été sauvegardé de façon permanente via notre outil de gestion des configurations ainsi que l'iptables pour l'ajustement du MSS, ce qui évitera les déboires causées en cas de redémarrage du serveur.

L'équipe adminsys

Après quelques debug, nous avons constaté une augmentation de la table des inodes, mais ça semble être seulement du cache, sans incidence. L'erreur « For generic netlink request 6 on 24, got a netlink error: No such device » semble être une fausse piste, c'est la suppression des routes IPv6 mais IPv6CP peut ne pas être activé.

  • 27/06/2023 13:20 : augmentation de la valeur net.core.optmem_max de 1MB à 10MB et blocage des requêtes d'une ligne qui revenait sans cesse dans les logs pouvant solliciter de manière agressive les LNS et causer un effet de bord
  • 27/06/2023 ~21:00 : remontées d'accès à de nombreux sites web, ça ressemble à un problème MTU. Des comptes radius de personnes nous l'ayant remontés sont exclus de l’accélération noyau (tous ceux en %idf), ça fonctionne de nouveau.
  • 27/06/2023 ~23:20 : il ne s'agit pas d'un problème sur la MTU mais sur la MSS. Il est ajusté à 1420 sur les deux LNS et sauvegardé de façon persistante.

Encore désolé pour ces interruptions et merci à toutes les personnes qui nous ont aidé dans le debug ;). Le sujet reste sous surveillance.

L'équipe adminsys