d3cdbb2d2d
Segunda etapa del transpilador: Vec<Token> -> Program. Alcance v1 = el esqueleto del programa. - parse(&[Token]) -> Result<Program, ParseError>. AST: Program (program_id, data, paragraphs), DataItem, Paragraph, Sentence. - Particiona el flujo en las 4 divisions por sus encabezados; extrae el PROGRAM-ID de la IDENTIFICATION. - DATA division -> árbol de DataItem: nivel, nombre, PICTURE reensamblado (S9 ( 5 ) V99 -> S9(5)V99) y VALUE. Anida por número de nivel (01/77 raíces, 88 cuelga del precedente). - PROCEDURE division -> Vec<Paragraph> con Sentence de tokens crudos (sin parseo de statement). Sentencias previas al primer encabezado van a un párrafo implícito "". - Tolerante: salta SECTION, FD/SD y cláusulas que no sean PIC/VALUE. - 15 tests verdes; fmt + clippy limpios. Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>
81 lines
3.9 KiB
Markdown
81 lines
3.9 KiB
Markdown
# modules/charka/ — Transpilador COBOL → Rust
|
|
|
|
**Propósito.** Modernizar sistemas COBOL legados transpilándolos a Rust
|
|
con un runtime determinista y un validador en sombra (shadow validator)
|
|
que compara la salida del original y la del transpilado. Es el módulo
|
|
más grande del ecosistema — el parser COBOL completo (CICS, SQL
|
|
embebido, dialectos IBM Enterprise) es un esfuerzo multi-mes.
|
|
|
|
## Crates
|
|
|
|
| crate | tipo | rol |
|
|
| -------------- | ---- | ------------------------------------------------------------ |
|
|
| `charka-bcd` | lib | Aritmética decimal de punto fijo con semántica COBOL: `Picture`, `Decimal`, redondeo, `ON SIZE ERROR` |
|
|
| `charka-lexer` | lib | Tokenizador COBOL: formato fijo (tarjeta de 80 columnas) y libre |
|
|
| `charka-parser` | lib | Parser COBOL'85 (subconjunto): tokens → AST (`Program`) |
|
|
|
|
## charka-bcd
|
|
|
|
COBOL no calcula en binario flotante: opera sobre campos decimales de
|
|
precisión fija (`PIC S9(5)V99`). Reproducir un programa COBOL exige
|
|
reproducir esa aritmética dígito a dígito.
|
|
|
|
- `Picture` — parsea la cláusula PICTURE numérica (`9`, `V`, `S`, `9(n)`).
|
|
- `Decimal` — punto fijo exacto (`mantissa: i128` + `scale`); suma, resta
|
|
y producto exactos; división con escala de resultado fija; redondeo
|
|
`Truncate`/`HalfUp`; `coerce` a un `Picture` con detección de
|
|
desbordamiento.
|
|
- Determinista, sin dependencias de plataforma — mismo programa, mismos
|
|
dígitos, en cualquier máquina.
|
|
|
|
## charka-lexer
|
|
|
|
Primera etapa del pipeline: texto COBOL → secuencia de `Token`.
|
|
|
|
- **Lexer tonto**: no conoce keywords ni la cláusula `PICTURE` — emite
|
|
`Word` para todo identificador; la clasificación es del parser.
|
|
- Tokens: `Word` (con guiones internos, `WORKING-STORAGE`), `Number`
|
|
(sin signo), `String` (comillas dobladas colapsadas), `Period`,
|
|
`Symbol` (`( ) , ; :` y operadores `+ - * / ** = < > <= >= <>`).
|
|
- Dos formatos: **fijo** (cols 1-6 secuencia, 7 indicadora, 8-72
|
|
código, 73-80 id) y **libre**. Comentarios por col 7 (`*`/`/`) o `*`
|
|
inicial en formato libre.
|
|
- Cada token lleva línea/columna 1-based. `LexError` tipado.
|
|
- Limitación v1: sin continuación de literales entre líneas
|
|
(indicador `-`).
|
|
|
|
## charka-parser
|
|
|
|
Segunda etapa: tokens → AST. Alcance v1 — el **esqueleto del programa**.
|
|
|
|
- `parse(&[Token]) -> Result<Program, ParseError>`.
|
|
- `Program { program_id, data: Vec<DataItem>, paragraphs: Vec<Paragraph> }`.
|
|
- **DATA division** → árbol de `DataItem` (`level`, `name`, `picture`,
|
|
`value`, `children`). Reensambla la cláusula `PICTURE` desde sus
|
|
tokens (`S9` `(` `5` `)` `V99` → `S9(5)V99`); anida por número de
|
|
nivel (01 y 77 son raíces; 88 cuelga del ítem precedente).
|
|
- **PROCEDURE division** → `Vec<Paragraph>`, cada `Paragraph` con sus
|
|
`Sentence` (tokens crudos — sin parseo a nivel de statement). Las
|
|
sentencias previas al primer encabezado van a un párrafo implícito
|
|
de nombre "".
|
|
- Tolerante: salta encabezados de `SECTION`, entradas `FD`/`SD` y
|
|
cláusulas de datos que no sean `PICTURE`/`VALUE`. `ParseError` sólo
|
|
ante nivel inválido o dato sin nombre.
|
|
- Limitación v1: no parsea statements, ni la ENVIRONMENT division, ni
|
|
CICS / SQL embebido / dialectos IBM.
|
|
|
|
## Estado
|
|
|
|
`charka-bcd` (22 tests), `charka-lexer` (17 tests) y `charka-parser`
|
|
(15 tests) implementados y verdes. **Pendiente** — el resto del
|
|
transpilador (Fase D del plan macro):
|
|
|
|
| crate pendiente | rol |
|
|
| ----------------- | ---------------------------------------------------- |
|
|
| `charka-ir` | representación intermedia (parseo de statements) |
|
|
| `charka-codegen` | emisión de Rust |
|
|
| `charka-shadow` | validador en sombra (original vs transpilado) |
|
|
| `charka-runtime` | runtime determinista (sobre `charka-bcd`) |
|
|
|
|
Hito intermedio sugerido: subconjunto COBOL'85 puro antes de CICS/SQL.
|