Problèmes et questions concernant le noyau et le support matériel.
Répondre

Mise à jour 21/11/2023 - ne démarre pas noyau 6.6.1

#1Messageil y a 4 mois

Après la mise à jour j'ai eu la mauvaise idée d'installer le noyau 6.6.1. Résultat : ne démarre pas, je dois redémarrer sur le 6.1.62. après le plantage, le message suivant s'affiche au reboot (et apparaît dans dmesg) :

[    0.439733] mce: [Hardware Error]: CPU 7: Machine Check: 0 Bank 0: bc002800000c0135
[    0.439740] mce: [Hardware Error]: TSC 0 ADDR f76000c0 MISC d012000000000000 IPID b000000000 
[    0.439744] mce: [Hardware Error]: PROCESSOR 2:870f10 TIME 1700746708 SOCKET 0 APIC 3 microcode 8701021
Après une recherche je trouve deux explications possibles :
1) https://forum.manjaro.org/t/system-auto ... -cpu/89580
With Ryzen 5, particularly the enthusiast models of 5950X and 5900X there seem to be some slight instability issues under Linux, related possibly to the 5.11+ kernel, as shown by this kernel bug 8. After investigating and reading reports on the Internet I discovered that out of the box, windows seems to run the CPUs at higher voltage and lower peak frequencies, compared to the stock linux kernel, which depending on your draw from the silicone lottery could cause a host of random application crashes or hardware errors that lead to reboots. You will recognise those by dmesg logs that look like:

kernel: mce: [Hardware Error]: Machine check events logged kernel:
mce: [Hardware Error]: CPU 22: Machine Check: 0 Bank 1: bc800800060c0859
lightbringer kernel: mce: [Hardware Error]: TSC 0 ADDR 7ea8f5b00 MISC d012000000000000 IPID 100b000000000
lightbringer kernel: mce: [Hardware Error]: PROCESSOR 2:a20f10 TIME 1636645367 SOCKET 0 APIC d microcode a201016

The CPU ID and the Processor number may vary. To solve this problem you need to supply higher voltage to your CPU so that it is stable when running at peak frequencies. The easiest way to achieve this is to use the AMD curve optimiser which is accessible via your motherboard’s bios. Access it and put a positive offset of 4 points, which will increase the voltage your CPU is getting at higher loads. It will limit overclocking potential due to higher heat dissipation requirements, but it will run stable. For more details check this forum post 42. When I did this for my 5950X, my processor stabilised and the frequency and voltage ranges were more similar to those observed under windows.
2) https://forum.manjaro.org/t/stable-upda ... /151904/21
An issue I encountered was that microcode inclusion in the UKI was broken when using kernel-install. The manjaro package for mkinitcpio 37 is missing the new 40-microcode.install file. You can just download the missing file from the git repo. Remember to set the right permissions and reregenerate.
Je n'ai pas trouvé comment appliquer la solution proposée par 1), à savoir jouer sur les options d'alimentation dans le bios de la carte mère. À vrai dire je préfèrerais que le problème soit celui évoqué par 2), donc un fichier manquant dans mkinitcpio 37, qui sera sûrement corrigé très vite...

Quelqu'un a-t-il eu ce problème ? Une idée de la solution ?

Merci d'avance !
administration/modération

Mise à jour 21/11/2023 - ne démarre pas noyau 6.6.1

#2Messageil y a 4 mois

bonjour

@aldo
peux-tu fournir le retour de

inxi -Fza
sudo mhwd-kernel -li

Mise à jour 21/11/2023 - ne démarre pas noyau 6.6.1

#3Messageil y a 4 mois

@stephane ça donne ça :

[alain@manicraque ~]$ inxi -Fza
System:
  Kernel: 6.1.62-1-MANJARO arch: x86_64 bits: 64 compiler: gcc v: 13.2.1
    clocksource: tsc available: hpet,acpi_pm
    parameters: BOOT_IMAGE=/boot/vmlinuz-6.1-x86_64
    root=UUID=fb978dc4-180b-47d5-a3b2-5741e0ab79bf rw quiet
    udev.log_priority=3
  Desktop: Xfce v: 4.18.1 tk: Gtk v: 3.24.36 info: xfce4-panel, cairo-dock
    wm: Compiz v: 0.9.14.2 vt: 7 dm: LightDM v: 1.32.0 Distro: Manjaro Linux
    base: Arch Linux
Machine:
  Type: Desktop Mobo: Micro-Star model: B450 GAMING PLUS MAX (MS-7B86) v: 3.0
    serial: <superuser required> UEFI: American Megatrends v: H.70
    date: 06/17/2020
CPU:
  Info: model: AMD Ryzen 5 3600 bits: 64 type: MT MCP arch: Zen 2 gen: 3
    level: v3 note: check built: 2020-22 process: TSMC n7 (7nm)
    family: 0x17 (23) model-id: 0x71 (113) stepping: 0 microcode: 0x8701021
  Topology: cpus: 1x cores: 6 tpc: 2 threads: 12 smt: enabled cache:
    L1: 384 KiB desc: d-6x32 KiB; i-6x32 KiB L2: 3 MiB desc: 6x512 KiB
    L3: 32 MiB desc: 2x16 MiB
  Speed (MHz): avg: 2189 high: 2200 min/max: 2200/4208 boost: enabled
    scaling: driver: acpi-cpufreq governor: schedutil cores: 1: 2200 2: 2126
    3: 2200 4: 2177 5: 2167 6: 2200 7: 2200 8: 2200 9: 2200 10: 2200 11: 2199
    12: 2200 bogomips: 86434
  Flags: avx avx2 ht lm nx pae sse sse2 sse3 sse4_1 sse4_2 sse4a ssse3 svm
  Vulnerabilities:
  Type: gather_data_sampling status: Not affected
  Type: itlb_multihit status: Not affected
  Type: l1tf status: Not affected
  Type: mds status: Not affected
  Type: meltdown status: Not affected
  Type: mmio_stale_data status: Not affected
  Type: retbleed mitigation: untrained return thunk; SMT enabled with STIBP
    protection
  Type: spec_rstack_overflow mitigation: safe RET
  Type: spec_store_bypass mitigation: Speculative Store Bypass disabled via
    prctl
  Type: spectre_v1 mitigation: usercopy/swapgs barriers and __user pointer
    sanitization
  Type: spectre_v2 mitigation: Retpolines, IBPB: conditional, STIBP:
    always-on, RSB filling, PBRSB-eIBRS: Not affected
  Type: srbds status: Not affected
  Type: tsx_async_abort status: Not affected
Graphics:
  Device-1: NVIDIA GP104 [GeForce GTX 1060 6GB] vendor: ZOTAC driver: nvidia
    v: 535.129.03 alternate: nouveau,nvidia_drm non-free: 545.xx+ status: current
    (as of 2023-11; EOL~2026-12-xx) arch: Pascal code: GP10x
    process: TSMC 16nm built: 2016-2021 pcie: gen: 3 speed: 8 GT/s lanes: 16
    bus-ID: 26:00.0 chip-ID: 10de:1b83 class-ID: 0300
  Display: x11 server: X.Org v: 21.1.9 compositor: Compiz v: 0.9.14.2
    driver: X: loaded: nvidia gpu: nvidia display-ID: :0.0 screens: 1
  Screen-1: 0 s-res: 1920x1080 s-dpi: 96 s-size: 508x286mm (20.00x11.26")
    s-diag: 583mm (22.95")
  Monitor-1: DP-4 res: 1920x1080 hz: 60 dpi: 93
    size: 527x296mm (20.75x11.65") diag: 604mm (23.8") modes: N/A
  API: EGL v: 1.5 hw: drv: nvidia platforms: gbm: drv: nvidia
  API: OpenGL v: 4.6.0 vendor: nvidia v: 535.129.03 glx-v: 1.4
    direct-render: yes renderer: NVIDIA GeForce GTX 1060 6GB/PCIe/SSE2
    memory: 5.86 GiB
Audio:
  Device-1: NVIDIA GP104 High Definition Audio vendor: ZOTAC
    driver: snd_hda_intel v: kernel pcie: gen: 3 speed: 8 GT/s lanes: 16
    bus-ID: 26:00.1 chip-ID: 10de:10f0 class-ID: 0403
  Device-2: AMD Starship/Matisse HD Audio vendor: Micro-Star MSI
    driver: snd_hda_intel v: kernel pcie: gen: 4 speed: 16 GT/s lanes: 16
    bus-ID: 28:00.4 chip-ID: 1022:1487 class-ID: 0403
  API: ALSA v: k6.1.62-1-MANJARO status: kernel-api with: aoss
    type: oss-emulator tools: alsactl,alsamixer,amixer
  Server-1: JACK v: 1.9.22 status: off tools: N/A
  Server-2: PipeWire v: 0.3.85 status: off tools: pw-cli
  Server-3: PulseAudio v: 16.1 status: active with: 1: pulseaudio-alsa
    type: plugin 2: pulseaudio-jack type: module tools: pacat,pactl,pavucontrol
Network:
  Device-1: Realtek RTL8111/8168/8411 PCI Express Gigabit Ethernet
    vendor: Micro-Star MSI driver: r8169 v: kernel pcie: gen: 1 speed: 2.5 GT/s
    lanes: 1 port: d000 bus-ID: 23:00.0 chip-ID: 10ec:8168 class-ID: 0200
  IF: enp35s0 state: up speed: 1000 Mbps duplex: full mac: <filter>
  IF-ID-1: br-d57177cfbac7 state: down mac: <filter>
  IF-ID-2: docker0 state: down mac: <filter>
Drives:
  Local Storage: total: 1.82 TiB used: 1.26 TiB (69.2%)
  SMART Message: Required tool smartctl not installed. Check --recommends
  ID-1: /dev/sda maj-min: 8:0 vendor: Western Digital
    model: WDS100T2B0A-00SM50 size: 931.51 GiB block-size: physical: 512 B
    logical: 512 B speed: 6.0 Gb/s tech: SSD serial: <filter> fw-rev: 00WD
    scheme: GPT
  ID-2: /dev/sdb maj-min: 8:16 vendor: Western Digital
    model: WD10EALX-009BA0 size: 931.51 GiB block-size: physical: 512 B
    logical: 512 B speed: 6.0 Gb/s tech: N/A serial: <filter> fw-rev: 1H15
    scheme: MBR
Partition:
  ID-1: / raw-size: 914 GiB size: 898.58 GiB (98.31%) used: 592.04 GiB (65.9%)
    fs: ext4 dev: /dev/sda2 maj-min: 8:2
  ID-2: /boot/efi raw-size: 300 MiB size: 299.4 MiB (99.80%)
    used: 312 KiB (0.1%) fs: vfat dev: /dev/sda1 maj-min: 8:1
Swap:
  Kernel: swappiness: 60 (default) cache-pressure: 100 (default) zswap: yes
    compressor: zstd max-pool: 20%
  ID-1: swap-1 type: partition size: 17.21 GiB used: 0 KiB (0.0%)
    priority: -2 dev: /dev/sda3 maj-min: 8:3
Sensors:
  System Temperatures: cpu: 42.5 C mobo: N/A gpu: nvidia temp: 25 C
  Fan Speeds (rpm): N/A gpu: nvidia fan: 37%
Info:
  Processes: 395 Uptime: 7h 27m wakeups: 2 Memory: total: 16 GiB
  available: 15.57 GiB used: 3.23 GiB (20.7%) Init: systemd v: 254
  default: graphical tool: systemctl Compilers: gcc: 13.2.1 clang: 16.0.6
  Packages: 1970 pm: pacman pkgs: 1940 libs: 498 tools: pamac,yay pm: flatpak
  pkgs: 19 pm: snap pkgs: 11 Shell: Bash v: 5.2.15 running-in: xfce4-terminal
  inxi: 3.3.31
[alain@manicraque ~]$ sudo mhwd-kernel -li
[sudo] Mot de passe de alain : 
Currently running: 6.1.62-1-MANJARO (linux61)
The following kernels are installed in your system:
   * linux61
   * linux66

Mise à jour 21/11/2023 - ne démarre pas noyau 6.6.1

#4Messageil y a 4 mois

je pense plus a un souci maj UEFI + paramétrage
dans ce 1er topic , ( a lire bien tranquillement ) , il y a eu au début des paramètres d'overclocking pour le CPU et souvent le bus FCLK vis à vis de la mémoire sur les premières version Agesa

ce n'était pas au final une bonne idée , puisque maintenant nous avons amd-pstate-epp depuis la version kernel 6.5.
1) https://fr.msi.com/Motherboard/B450-GAM ... AX/support
-- > bien lire avant historique des versions
-- > il est préférable de revenir a une gestion par mode auto ,
-- > on peut toujours force le mode processor.max_cstate=5
pour la maj UEFI , il faut AVANT que tu ai une clé ISO bootable au cas ou, et vérifier certains paramètres UEFI


2) si tu as le FCLK > 1800 cela peut générer ces erreurs avec la mémoire DDR4, si c'est le cas revenir à un réglage auto est mieux

Mise à jour 21/11/2023 - ne démarre pas noyau 6.6.1

#5Messageil y a 4 mois

stephane a écrit : il y a 4 mois je pense plus a un souci maj UEFI + paramétrage [...]
1) https://fr.msi.com/Motherboard/B450-GAM ... AX/support [...]
2) si tu as le FCLK > 1800 cela peut générer ces erreurs avec la mémoire DDR4, si c'est le cas revenir à un réglage auto est mieux
Merci pour ta réponse précise et rapide. Malheureusement je ne suis guère avancé...
1) Je viens de mettre à jour l'UEFI, mais le problème demeure. Je précise que je n'ai touché à rien dans les réglages par défaut.
Une petite différence quand même : la 3e ligne dit maintenant

[    0.801073] mce: [Hardware Error]: PROCESSOR 2:870f10 TIME 1700820427 SOCKET 0 APIC 2 microcode 8701030
(APIC 3 devient APIC 2, microcode différent)
2) FCLK : Où est ce réglage ? (OK, trouvé. Il était à "auto", j'ai testé 1600, pas de changement)

Complément : j'ai installé le noyau 6.5.11, le problème est le même.

Mise à jour 21/11/2023 - ne démarre pas noyau 6.6.1

#6Messageil y a 4 mois

Mon problème vient d'une carte PCI FireWire, réf. VIA Technologies VT6306/7/8. Une fois la carte retirée, le système boote normalement sur les noyaux 6.5 et 6.6. J'ai été orienté vers cette solution par les discussions :
https://bbs.archlinux.org/viewtopic.php?id=286954
https://old.reddit.com/r/Fedora/comment ... ggestions/

Ça n'explique pas pourquoi cette incompatibilité de carte apparaît entre les noyaux 6.1 et 6.5. Une régression dans le driver ?
Le bug est bel et bien signalé dans bugzilla pour 6.5 :
https://bugzilla.kernel.org/show_bug.cgi?id=217993

Mise à jour 21/11/2023 - ne démarre pas noyau 6.6.1

#7Messageil y a 4 mois

oui sûrement , la gestion FireWire n'est pas encore bien fiable et stable au niveau kernel

Mise à jour 21/11/2023 - ne démarre pas noyau 6.6.1

#8Messageil y a 1 mois

aldo a écrit : il y a 4 mois Mon problème vient d'une carte PCI FireWire, réf. VIA Technologies VT6306/7/8. Une fois la carte retirée, le système boote normalement sur les noyaux 6.5 et 6.6.
Le noyau 6.7 a résolu le problème :sourire:
Répondre