Segunda etapa del transpilador: Vec<Token> -> Program. Alcance v1 = el esqueleto del programa. - parse(&[Token]) -> Result<Program, ParseError>. AST: Program (program_id, data, paragraphs), DataItem, Paragraph, Sentence. - Particiona el flujo en las 4 divisions por sus encabezados; extrae el PROGRAM-ID de la IDENTIFICATION. - DATA division -> árbol de DataItem: nivel, nombre, PICTURE reensamblado (S9 ( 5 ) V99 -> S9(5)V99) y VALUE. Anida por número de nivel (01/77 raíces, 88 cuelga del precedente). - PROCEDURE division -> Vec<Paragraph> con Sentence de tokens crudos (sin parseo de statement). Sentencias previas al primer encabezado van a un párrafo implícito "". - Tolerante: salta SECTION, FD/SD y cláusulas que no sean PIC/VALUE. - 15 tests verdes; fmt + clippy limpios. Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>
3.9 KiB
modules/charka/ — Transpilador COBOL → Rust
Propósito. Modernizar sistemas COBOL legados transpilándolos a Rust con un runtime determinista y un validador en sombra (shadow validator) que compara la salida del original y la del transpilado. Es el módulo más grande del ecosistema — el parser COBOL completo (CICS, SQL embebido, dialectos IBM Enterprise) es un esfuerzo multi-mes.
Crates
| crate | tipo | rol |
|---|---|---|
charka-bcd |
lib | Aritmética decimal de punto fijo con semántica COBOL: Picture, Decimal, redondeo, ON SIZE ERROR |
charka-lexer |
lib | Tokenizador COBOL: formato fijo (tarjeta de 80 columnas) y libre |
charka-parser |
lib | Parser COBOL'85 (subconjunto): tokens → AST (Program) |
charka-bcd
COBOL no calcula en binario flotante: opera sobre campos decimales de
precisión fija (PIC S9(5)V99). Reproducir un programa COBOL exige
reproducir esa aritmética dígito a dígito.
Picture— parsea la cláusula PICTURE numérica (9,V,S,9(n)).Decimal— punto fijo exacto (mantissa: i128+scale); suma, resta y producto exactos; división con escala de resultado fija; redondeoTruncate/HalfUp;coercea unPicturecon detección de desbordamiento.- Determinista, sin dependencias de plataforma — mismo programa, mismos dígitos, en cualquier máquina.
charka-lexer
Primera etapa del pipeline: texto COBOL → secuencia de Token.
- Lexer tonto: no conoce keywords ni la cláusula
PICTURE— emiteWordpara todo identificador; la clasificación es del parser. - Tokens:
Word(con guiones internos,WORKING-STORAGE),Number(sin signo),String(comillas dobladas colapsadas),Period,Symbol(( ) , ; :y operadores+ - * / ** = < > <= >= <>). - Dos formatos: fijo (cols 1-6 secuencia, 7 indicadora, 8-72
código, 73-80 id) y libre. Comentarios por col 7 (
*//) o*inicial en formato libre. - Cada token lleva línea/columna 1-based.
LexErrortipado. - Limitación v1: sin continuación de literales entre líneas
(indicador
-).
charka-parser
Segunda etapa: tokens → AST. Alcance v1 — el esqueleto del programa.
parse(&[Token]) -> Result<Program, ParseError>.Program { program_id, data: Vec<DataItem>, paragraphs: Vec<Paragraph> }.- DATA division → árbol de
DataItem(level,name,picture,value,children). Reensambla la cláusulaPICTUREdesde sus tokens (S9(5)V99→S9(5)V99); anida por número de nivel (01 y 77 son raíces; 88 cuelga del ítem precedente). - PROCEDURE division →
Vec<Paragraph>, cadaParagraphcon susSentence(tokens crudos — sin parseo a nivel de statement). Las sentencias previas al primer encabezado van a un párrafo implícito de nombre "". - Tolerante: salta encabezados de
SECTION, entradasFD/SDy cláusulas de datos que no seanPICTURE/VALUE.ParseErrorsólo ante nivel inválido o dato sin nombre. - Limitación v1: no parsea statements, ni la ENVIRONMENT division, ni CICS / SQL embebido / dialectos IBM.
Estado
charka-bcd (22 tests), charka-lexer (17 tests) y charka-parser
(15 tests) implementados y verdes. Pendiente — el resto del
transpilador (Fase D del plan macro):
| crate pendiente | rol |
|---|---|
charka-ir |
representación intermedia (parseo de statements) |
charka-codegen |
emisión de Rust |
charka-shadow |
validador en sombra (original vs transpilado) |
charka-runtime |
runtime determinista (sobre charka-bcd) |
Hito intermedio sugerido: subconjunto COBOL'85 puro antes de CICS/SQL.