# modules/charka/ — Transpilador COBOL → Rust **Propósito.** Modernizar sistemas COBOL legados transpilándolos a Rust con un runtime determinista y un validador en sombra (shadow validator) que compara la salida del original y la del transpilado. Es el módulo más grande del ecosistema — el parser COBOL completo (CICS, SQL embebido, dialectos IBM Enterprise) es un esfuerzo multi-mes. ## Crates | crate | tipo | rol | | -------------- | ---- | ------------------------------------------------------------ | | `charka-bcd` | lib | Aritmética decimal de punto fijo con semántica COBOL: `Picture`, `Decimal`, redondeo, `ON SIZE ERROR` | | `charka-lexer` | lib | Tokenizador COBOL: formato fijo (tarjeta de 80 columnas) y libre | | `charka-parser` | lib | Parser COBOL'85 (subconjunto): tokens → AST (`Program`) | ## charka-bcd COBOL no calcula en binario flotante: opera sobre campos decimales de precisión fija (`PIC S9(5)V99`). Reproducir un programa COBOL exige reproducir esa aritmética dígito a dígito. - `Picture` — parsea la cláusula PICTURE numérica (`9`, `V`, `S`, `9(n)`). - `Decimal` — punto fijo exacto (`mantissa: i128` + `scale`); suma, resta y producto exactos; división con escala de resultado fija; redondeo `Truncate`/`HalfUp`; `coerce` a un `Picture` con detección de desbordamiento. - Determinista, sin dependencias de plataforma — mismo programa, mismos dígitos, en cualquier máquina. ## charka-lexer Primera etapa del pipeline: texto COBOL → secuencia de `Token`. - **Lexer tonto**: no conoce keywords ni la cláusula `PICTURE` — emite `Word` para todo identificador; la clasificación es del parser. - Tokens: `Word` (con guiones internos, `WORKING-STORAGE`), `Number` (sin signo), `String` (comillas dobladas colapsadas), `Period`, `Symbol` (`( ) , ; :` y operadores `+ - * / ** = < > <= >= <>`). - Dos formatos: **fijo** (cols 1-6 secuencia, 7 indicadora, 8-72 código, 73-80 id) y **libre**. Comentarios por col 7 (`*`/`/`) o `*` inicial en formato libre. - Cada token lleva línea/columna 1-based. `LexError` tipado. - Limitación v1: sin continuación de literales entre líneas (indicador `-`). ## charka-parser Segunda etapa: tokens → AST. Alcance v1 — el **esqueleto del programa**. - `parse(&[Token]) -> Result`. - `Program { program_id, data: Vec, paragraphs: Vec }`. - **DATA division** → árbol de `DataItem` (`level`, `name`, `picture`, `value`, `children`). Reensambla la cláusula `PICTURE` desde sus tokens (`S9` `(` `5` `)` `V99` → `S9(5)V99`); anida por número de nivel (01 y 77 son raíces; 88 cuelga del ítem precedente). - **PROCEDURE division** → `Vec`, cada `Paragraph` con sus `Sentence` (tokens crudos — sin parseo a nivel de statement). Las sentencias previas al primer encabezado van a un párrafo implícito de nombre "". - Tolerante: salta encabezados de `SECTION`, entradas `FD`/`SD` y cláusulas de datos que no sean `PICTURE`/`VALUE`. `ParseError` sólo ante nivel inválido o dato sin nombre. - Limitación v1: no parsea statements, ni la ENVIRONMENT division, ni CICS / SQL embebido / dialectos IBM. ## Estado `charka-bcd` (22 tests), `charka-lexer` (17 tests) y `charka-parser` (15 tests) implementados y verdes. **Pendiente** — el resto del transpilador (Fase D del plan macro): | crate pendiente | rol | | ----------------- | ---------------------------------------------------- | | `charka-ir` | representación intermedia (parseo de statements) | | `charka-codegen` | emisión de Rust | | `charka-shadow` | validador en sombra (original vs transpilado) | | `charka-runtime` | runtime determinista (sobre `charka-bcd`) | Hito intermedio sugerido: subconjunto COBOL'85 puro antes de CICS/SQL.