Files
brahman/crates/init/arje-kernel/src/surface.rs
T
sergio d1b700eb2b fix(init): el reboot-loop de Fedora — remount rw + /run tmpfs + shell de rescate
Diagnóstico: en el VPS Fedora arje-zero caía como PID 1 y el cmdline
traía `panic=10`, así que el kernel rebooteaba cada 10 s. Tres causas
encadenadas, todas arregladas:

1) **Cmdline `ro` + sin `/run` tmpfs.** El menuentry montaba `/` como
   sólo lectura (systemd lo remonta rw temprano; arje no). Sin eso, el
   socket del bus interno se intenta crear sobre un FS de sólo lectura
   y falla con EROFS → spawn_bus devuelve Err → PID 1 sale → kernel
   panic. arje-kernel ahora remonta `/` rw en el bootstrap y monta
   `/run`, `/tmp`, `/dev/pts`, `/dev/shm` como tmpfs — superficies
   escribibles aunque la raíz quede ro.

2) **PID 1 saliendo en cualquier `?`.** Doctrina dura nueva: PID 1
   NUNCA puede salir. Cualquier error de arranque ahora cae a una
   `emergency_shell()` que imprime el diagnóstico en `/dev/console`,
   abre `/bin/sh` y, si la shell muere, la reabre — así el operador
   puede reparar en vez de mirar la máquina reiniciarse en bucle.

3) **El script no conocía grub2 (Fedora).** `install-arje-as-init.sh`
   sólo probaba `update-grub` (Debian) y `grub-mkconfig` (Arch). Ahora
   detecta `grub2-mkconfig` y resuelve el `grub.cfg` correcto
   (UEFI/BIOS, fedora/redhat/centos/almalinux/rocky). El menuentry
   también pasa de `ro` a `rw` — el remount es belt-and-suspenders.
   Mismo arreglo en `uninstall-arje.sh`.

Renaser intacto: estos cambios son Linux-side puro (arje-kernel y
arje-zero usan nix/libc/tracing); renaser sólo comparte mirada-layout y
formato, ninguno tocado.

Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>
2026-05-22 23:02:45 +00:00

119 lines
4.8 KiB
Rust

//! Bootstrap del entorno kernel para PID 1: remonta `/` rw, monta
//! procfs/sysfs/devtmpfs/cgroup2 y las superficies escribibles volátiles
//! (`/run`, `/tmp`, `/dev/pts`, `/dev/shm`), y registra al proceso como
//! subreaper para adoptar huérfanos.
//!
//! Idempotente: si un punto de montaje ya existe (lo montó el initramfs),
//! el segundo mount falla con EBUSY y simplemente se ignora.
//!
//! **Por qué importa `/run`:** el cmdline de arranque suele traer `ro`
//! (systemd remonta rw temprano; nosotros también debemos). Sin remontar
//! `/` y sin `/run` como tmpfs, crear el socket del bus interno falla con
//! EROFS — y PID 1 moriría, provocando un kernel panic. Esta función es
//! infalible a propósito: devuelve `Ok` siempre y sólo loggea los fallos.
use nix::mount::{mount, MsFlags};
use tracing::{debug, warn};
/// Prepara el entorno del kernel para PID 1. Nunca falla de forma dura:
/// cada paso es best-effort y los problemas se loggean, porque un `Err`
/// que llegue hasta `main` terminaría PID 1.
pub fn bootstrap_kernel_surface() -> anyhow::Result<()> {
// 1) Remontar `/` lectura-escritura. El cmdline casi siempre trae
// `ro`; sin esto el resto del sistema queda de sólo lectura.
if let Err(e) = mount::<str, str, str, str>(
None, "/", None, MsFlags::MS_REMOUNT, None,
) {
warn!(?e, "remount / rw falló — el sistema puede quedar de sólo lectura");
}
// 2) Pseudo-filesystems del kernel. NOSUID/NOEXEC/NODEV donde aplica.
let pseudo: [(&str, &str, &str, MsFlags); 4] = [
("proc", "/proc", "proc",
MsFlags::MS_NOSUID.union(MsFlags::MS_NOEXEC).union(MsFlags::MS_NODEV)),
("sysfs", "/sys", "sysfs",
MsFlags::MS_NOSUID.union(MsFlags::MS_NOEXEC).union(MsFlags::MS_NODEV)),
("devtmpfs", "/dev", "devtmpfs", MsFlags::MS_NOSUID),
("cgroup2", "/sys/fs/cgroup", "cgroup2",
MsFlags::MS_NOSUID.union(MsFlags::MS_NOEXEC).union(MsFlags::MS_NODEV)),
];
for (src, dst, fstype, flags) in pseudo {
let _ = mount::<str, str, str, str>(Some(src), dst, Some(fstype), flags, None);
}
// 3) Superficies escribibles volátiles. `/run` como tmpfs es lo que
// permite crear el socket del bus interno aun con `/` de sólo
// lectura. `mkdir` best-effort antes de cada montaje.
let volatile: [(&str, &str, &str, MsFlags, &str); 4] = [
("tmpfs", "/run", "tmpfs",
MsFlags::MS_NOSUID.union(MsFlags::MS_NODEV), "mode=0755"),
("tmpfs", "/tmp", "tmpfs",
MsFlags::MS_NOSUID.union(MsFlags::MS_NODEV), "mode=1777"),
("devpts", "/dev/pts", "devpts",
MsFlags::MS_NOSUID.union(MsFlags::MS_NOEXEC), "mode=0620,gid=5"),
("tmpfs", "/dev/shm", "tmpfs",
MsFlags::MS_NOSUID.union(MsFlags::MS_NODEV), "mode=1777"),
];
for (src, dst, fstype, flags, data) in volatile {
let _ = std::fs::create_dir_all(dst);
let _ = mount::<str, str, str, str>(Some(src), dst, Some(fstype), flags, Some(data));
}
let _ = std::fs::create_dir_all("/run/lock");
debug!("kernel surface bootstrap completo");
Ok(())
}
/// PR_SET_CHILD_SUBREAPER: que adoptemos huérfanos del fractal.
///
/// En PID 1 esto es redundante (el kernel ya lo hace), pero se deja explícito
/// para que ente-zero corriendo como sub-init en un container mantenga la
/// misma semántica.
pub fn become_child_subreaper() -> anyhow::Result<()> {
let r = unsafe { libc::prctl(libc::PR_SET_CHILD_SUBREAPER, 1u64, 0u64, 0u64, 0u64) };
if r != 0 {
anyhow::bail!(
"prctl PR_SET_CHILD_SUBREAPER falló: {}",
std::io::Error::last_os_error()
);
}
Ok(())
}
/// Cosechar zombis hasta vaciar la cola de niños muertos. Devuelve los
/// PIDs cosechados con su estado, como tuplas.
pub fn reap_all() -> Vec<ReapedChild> {
use nix::errno::Errno;
use nix::sys::wait::{waitpid, WaitPidFlag, WaitStatus};
let mut out = Vec::new();
loop {
match waitpid(None, Some(WaitPidFlag::WNOHANG)) {
Ok(WaitStatus::Exited(pid, code)) => {
out.push(ReapedChild { pid: pid.as_raw(), status: ReapStatus::Exited(code) });
}
Ok(WaitStatus::Signaled(pid, sig, _core)) => {
out.push(ReapedChild { pid: pid.as_raw(), status: ReapStatus::Signaled(sig as i32) });
}
Ok(WaitStatus::StillAlive) => return out,
Err(Errno::ECHILD) => return out,
Err(_) => return out,
Ok(_) => continue, // Stopped/Continued — irrelevantes
}
}
// unreachable, satisface al borrow checker
#[allow(unreachable_code)]
out
}
#[derive(Debug, Clone)]
pub struct ReapedChild {
pub pid: i32,
pub status: ReapStatus,
}
#[derive(Debug, Clone)]
pub enum ReapStatus {
Exited(i32),
Signaled(i32),
}