feat(charka): charka-lexer — tokenizador de COBOL

Primera etapa del transpilador COBOL→Rust (Fase D del plan macro):
texto COBOL → secuencia de Token. Lexer deliberadamente tonto (emite
Word para todo identificador, la clasificación es del parser). Tokens
Word/Number/String/Period/Symbol con línea+columna; soporta formato
fijo (tarjeta de 80 columnas) y libre; comentarios, comillas dobladas,
operadores de 1 y 2 caracteres. LexError tipado. 17 tests; clippy
limpio. Limitación v1: sin continuación de literales entre líneas.

Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>
This commit is contained in:
sergio
2026-05-21 19:54:54 +00:00
parent c56ef25546
commit ab56b35e9f
6 changed files with 538 additions and 6 deletions
+23 -6
View File
@@ -8,9 +8,10 @@ embebido, dialectos IBM Enterprise) es un esfuerzo multi-mes.
## Crates
| crate | tipo | rol |
| ------------ | ---- | ------------------------------------------------------------ |
| `charka-bcd` | lib | Aritmética decimal de punto fijo con semántica COBOL: `Picture`, `Decimal`, redondeo, `ON SIZE ERROR` |
| crate | tipo | rol |
| -------------- | ---- | ------------------------------------------------------------ |
| `charka-bcd` | lib | Aritmética decimal de punto fijo con semántica COBOL: `Picture`, `Decimal`, redondeo, `ON SIZE ERROR` |
| `charka-lexer` | lib | Tokenizador COBOL: formato fijo (tarjeta de 80 columnas) y libre |
## charka-bcd
@@ -26,14 +27,30 @@ reproducir esa aritmética dígito a dígito.
- Determinista, sin dependencias de plataforma — mismo programa, mismos
dígitos, en cualquier máquina.
## charka-lexer
Primera etapa del pipeline: texto COBOL → secuencia de `Token`.
- **Lexer tonto**: no conoce keywords ni la cláusula `PICTURE` — emite
`Word` para todo identificador; la clasificación es del parser.
- Tokens: `Word` (con guiones internos, `WORKING-STORAGE`), `Number`
(sin signo), `String` (comillas dobladas colapsadas), `Period`,
`Symbol` (`( ) , ; :` y operadores `+ - * / ** = < > <= >= <>`).
- Dos formatos: **fijo** (cols 1-6 secuencia, 7 indicadora, 8-72
código, 73-80 id) y **libre**. Comentarios por col 7 (`*`/`/`) o `*`
inicial en formato libre.
- Cada token lleva línea/columna 1-based. `LexError` tipado.
- Limitación v1: sin continuación de literales entre líneas
(indicador `-`).
## Estado
`charka-bcd` implementado y verde (22 tests). **Pendiente** — el grueso
del transpilador (esfuerzo multi-mes, Fase D del plan macro):
`charka-bcd` (22 tests) y `charka-lexer` (17 tests) implementados y
verdes. **Pendiente** — el resto del transpilador (Fase D del plan
macro):
| crate pendiente | rol |
| ----------------- | ---------------------------------------------------- |
| `charka-lexer` | tokenizador COBOL (formato fijo de columnas) |
| `charka-parser` | parser COBOL'85 → AST (luego CICS + SQL embebido) |
| `charka-ir` | representación intermedia |
| `charka-codegen` | emisión de Rust |
@@ -0,0 +1,12 @@
[package]
name = "charka-lexer"
version.workspace = true
edition.workspace = true
rust-version.workspace = true
license.workspace = true
authors.workspace = true
publish.workspace = true
description = "charka-lexer — tokenizador de COBOL (formato fijo de columnas y libre) para el transpilador COBOL→Rust."
[dependencies]
thiserror = { workspace = true }
@@ -0,0 +1,462 @@
//! `charka-lexer` — tokenizador de COBOL.
//!
//! Primera etapa del transpilador COBOL→Rust: convierte el texto fuente
//! en una secuencia de [`Token`]. El lexer es **deliberadamente tonto**
//! — no conoce keywords ni la cláusula `PICTURE`; emite `Word` para todo
//! identificador y deja la clasificación al parser. COBOL es
//! case-insensitive: el `text` de un `Word` va en su caja original y
//! quien matchee keywords debe normalizar.
//!
//! Soporta los dos formatos de fuente:
//! - **Fijo** (`SourceFormat::Fixed`) — la tarjeta de 80 columnas:
//! cols 1-6 área de secuencia, col 7 indicadora (`*`/`/` comentario,
//! `D` debugging), cols 8-72 código, 73-80 identificación.
//! - **Libre** (`SourceFormat::Free`) — la línea entera es código; `*`
//! o `*>` al inicio (tras espacios) es comentario.
//!
//! Limitación conocida (v1): no soporta continuación de literales entre
//! líneas (indicador `-` en col 7) — esos casos se tratan como código
//! normal. Es un subconjunto COBOL'85; el hito intermedio del plan.
#![forbid(unsafe_code)]
use thiserror::Error;
/// Formato del código fuente COBOL.
#[derive(Debug, Clone, Copy, PartialEq, Eq)]
pub enum SourceFormat {
/// Formato fijo tradicional (tarjeta de 80 columnas).
Fixed,
/// Formato libre: la línea entera es código.
Free,
}
/// Clase de un token.
#[derive(Debug, Clone, Copy, PartialEq, Eq)]
pub enum TokenKind {
/// Palabra COBOL: keyword o identificador (puede llevar guiones
/// internos, p. ej. `WORKING-STORAGE`).
Word,
/// Literal numérico sin signo (`42`, `3.14`). El signo, si lo hay,
/// es un `Symbol` aparte.
Number,
/// Literal de texto, con las comillas dobladas ya colapsadas.
String,
/// El punto `.` — terminador de sentencia/párrafo en COBOL.
Period,
/// Cualquier otro símbolo: `( ) , ; :` y los operadores
/// `+ - * / ** = < > <= >= <>`. El símbolo concreto va en `text`.
Symbol,
}
/// Un token con su posición en el fuente (línea y columna 1-based).
#[derive(Debug, Clone, PartialEq, Eq)]
pub struct Token {
pub kind: TokenKind,
/// Lexema. `Word`: caja original. `String`: valor ya decodificado.
/// `Number`/`Symbol`/`Period`: los caracteres tal cual.
pub text: String,
/// Línea 1-based.
pub line: u32,
/// Columna 1-based del primer carácter del token.
pub col: u32,
}
/// Error de tokenización, con la posición donde ocurrió.
#[derive(Debug, Clone, PartialEq, Eq, Error)]
pub enum LexError {
#[error("línea {line}:{col}: literal de texto sin cerrar")]
UnterminatedString { line: u32, col: u32 },
#[error("línea {line}:{col}: carácter inesperado {ch:?}")]
UnexpectedChar { line: u32, col: u32, ch: char },
}
/// Tokeniza un fuente COBOL completo. Falla con el primer [`LexError`].
pub fn lex(source: &str, format: SourceFormat) -> Result<Vec<Token>, LexError> {
let mut tokens = Vec::new();
for (idx, raw) in source.lines().enumerate() {
let line = (idx + 1) as u32;
if let Some((content, base_col)) = prepare_line(raw, format) {
lex_line(&content, line, base_col, &mut tokens)?;
}
}
Ok(tokens)
}
/// Extrae el área de código de una línea según el formato. `None` si la
/// línea entera se descarta (comentario, debugging). El `u32` es la
/// columna 1-based del primer carácter del contenido devuelto.
fn prepare_line(raw: &str, format: SourceFormat) -> Option<(String, u32)> {
match format {
SourceFormat::Fixed => {
let chars: Vec<char> = raw.chars().collect();
// Col 7 (índice 6): área indicadora.
match chars.get(6).copied().unwrap_or(' ') {
'*' | '/' => return None, // comentario / salto de página
'D' | 'd' => return None, // línea de debugging — v1 la omite
_ => {}
}
// Cols 8-72 (índices 7..72) = 65 columnas de código.
let content: String = chars.iter().skip(7).take(65).collect();
Some((content, 8))
}
SourceFormat::Free => {
let trimmed = raw.trim_start();
if trimmed.starts_with('*') {
return None; // `*` o `*>` al inicio: comentario
}
Some((raw.to_string(), 1))
}
}
}
/// Tokeniza una línea ya recortada al área de código.
fn lex_line(content: &str, line: u32, base_col: u32, out: &mut Vec<Token>) -> Result<(), LexError> {
let chars: Vec<char> = content.chars().collect();
let mut i = 0;
while i < chars.len() {
let c = chars[i];
let col = base_col + i as u32;
if c.is_whitespace() {
i += 1;
continue;
}
if c == '\'' || c == '"' {
let (value, next) = lex_string(&chars, i, c, line, col)?;
out.push(Token {
kind: TokenKind::String,
text: value,
line,
col,
});
i = next;
} else if c.is_ascii_digit() {
let (text, next) = lex_number(&chars, i);
out.push(Token {
kind: TokenKind::Number,
text,
line,
col,
});
i = next;
} else if c.is_ascii_alphabetic() {
let (text, next) = lex_word(&chars, i);
out.push(Token {
kind: TokenKind::Word,
text,
line,
col,
});
i = next;
} else if c == '.' {
out.push(Token {
kind: TokenKind::Period,
text: ".".into(),
line,
col,
});
i += 1;
} else if let Some(op) = two_char_op(&chars, i) {
out.push(Token {
kind: TokenKind::Symbol,
text: op.into(),
line,
col,
});
i += 2;
} else if "()+-*/=<>,;:".contains(c) {
out.push(Token {
kind: TokenKind::Symbol,
text: c.to_string(),
line,
col,
});
i += 1;
} else {
return Err(LexError::UnexpectedChar { line, col, ch: c });
}
}
Ok(())
}
/// Lee un literal de texto desde la comilla de apertura. Una comilla
/// doblada dentro del literal representa una comilla literal.
fn lex_string(
chars: &[char],
start: usize,
quote: char,
line: u32,
col: u32,
) -> Result<(String, usize), LexError> {
let mut value = String::new();
let mut i = start + 1;
while i < chars.len() {
if chars[i] == quote {
if chars.get(i + 1) == Some(&quote) {
value.push(quote); // comilla doblada → comilla literal
i += 2;
} else {
return Ok((value, i + 1)); // comilla de cierre
}
} else {
value.push(chars[i]);
i += 1;
}
}
Err(LexError::UnterminatedString { line, col })
}
/// Lee un literal numérico sin signo. El punto decimal sólo cuenta si
/// lo sigue un dígito — sino es el terminador `.`.
fn lex_number(chars: &[char], start: usize) -> (String, usize) {
let mut i = start;
while i < chars.len() && chars[i].is_ascii_digit() {
i += 1;
}
if i + 1 < chars.len() && chars[i] == '.' && chars[i + 1].is_ascii_digit() {
i += 1;
while i < chars.len() && chars[i].is_ascii_digit() {
i += 1;
}
}
(chars[start..i].iter().collect(), i)
}
/// Lee una palabra COBOL: empieza con letra, sigue con alfanuméricos y
/// guiones internos (un guión sólo si lo sigue un alfanumérico).
fn lex_word(chars: &[char], start: usize) -> (String, usize) {
let mut i = start + 1;
while i < chars.len() {
let c = chars[i];
// Alfanumérico, o un guión interno (sólo si lo sigue otro
// alfanumérico — `WORKING-STORAGE`, no un `MOVE-` colgante).
let word_char = c.is_ascii_alphanumeric()
|| (c == '-' && chars.get(i + 1).is_some_and(|n| n.is_ascii_alphanumeric()));
if !word_char {
break;
}
i += 1;
}
(chars[start..i].iter().collect(), i)
}
/// Reconoce un operador de dos caracteres en la posición `i`.
fn two_char_op(chars: &[char], i: usize) -> Option<&'static str> {
let a = *chars.get(i)?;
let b = *chars.get(i + 1)?;
match (a, b) {
('*', '*') => Some("**"),
('<', '=') => Some("<="),
('>', '=') => Some(">="),
('<', '>') => Some("<>"),
_ => None,
}
}
#[cfg(test)]
mod tests {
use super::*;
/// Helper: lexa y devuelve `(kind, text)` por token.
fn kinds(src: &str, fmt: SourceFormat) -> Vec<(TokenKind, String)> {
lex(src, fmt)
.expect("lex OK")
.into_iter()
.map(|t| (t.kind, t.text))
.collect()
}
#[test]
fn simple_sentence_free() {
let toks = kinds("MOVE 5 TO WS-COUNT.", SourceFormat::Free);
assert_eq!(
toks,
vec![
(TokenKind::Word, "MOVE".into()),
(TokenKind::Number, "5".into()),
(TokenKind::Word, "TO".into()),
(TokenKind::Word, "WS-COUNT".into()),
(TokenKind::Period, ".".into()),
]
);
}
#[test]
fn hyphenated_word_kept_whole() {
let toks = kinds("WORKING-STORAGE SECTION.", SourceFormat::Free);
assert_eq!(toks[0], (TokenKind::Word, "WORKING-STORAGE".into()));
assert_eq!(toks[1], (TokenKind::Word, "SECTION".into()));
}
#[test]
fn word_case_is_preserved() {
let toks = kinds("Move x", SourceFormat::Free);
assert_eq!(toks[0].1, "Move");
assert_eq!(toks[1].1, "x");
}
#[test]
fn string_literal_value_decoded() {
let toks = kinds("'hola mundo'", SourceFormat::Free);
assert_eq!(toks, vec![(TokenKind::String, "hola mundo".into())]);
}
#[test]
fn doubled_quote_is_literal_quote() {
let toks = kinds("'it''s ok'", SourceFormat::Free);
assert_eq!(toks, vec![(TokenKind::String, "it's ok".into())]);
}
#[test]
fn double_quoted_string() {
let toks = kinds("\"abc\"", SourceFormat::Free);
assert_eq!(toks, vec![(TokenKind::String, "abc".into())]);
}
#[test]
fn number_with_decimal_vs_trailing_period() {
// `3.14` es un número; `5.` es número 5 + terminador.
assert_eq!(
kinds("3.14", SourceFormat::Free),
vec![(TokenKind::Number, "3.14".into())]
);
assert_eq!(
kinds("5.", SourceFormat::Free),
vec![
(TokenKind::Number, "5".into()),
(TokenKind::Period, ".".into()),
]
);
}
#[test]
fn two_and_one_char_operators() {
let toks = kinds("A <= B >= C <> D ** E + F", SourceFormat::Free);
let syms: Vec<&str> = toks
.iter()
.filter(|(k, _)| *k == TokenKind::Symbol)
.map(|(_, t)| t.as_str())
.collect();
assert_eq!(syms, vec!["<=", ">=", "<>", "**", "+"]);
}
#[test]
fn parens_and_separators() {
let toks = kinds("PIC X(20), Y;", SourceFormat::Free);
let syms: Vec<&str> = toks
.iter()
.filter(|(k, _)| *k == TokenKind::Symbol)
.map(|(_, t)| t.as_str())
.collect();
assert_eq!(syms, vec!["(", ")", ",", ";"]);
}
#[test]
fn fixed_format_ignores_sequence_and_id_areas() {
// Cols 1-6 secuencia, col 7 espacio, cols 8.. código, 73+ id.
let mut line = String::new();
line.push_str("000100"); // cols 1-6: secuencia
line.push(' '); // col 7: indicador
line.push_str(" MOVE 1 TO X."); // código desde col 8
// Rellenar hasta col 73 y agregar área de identificación.
while line.chars().count() < 72 {
line.push(' ');
}
line.push_str("PROG0001"); // cols 73-80: ignoradas
let toks = kinds(&line, SourceFormat::Fixed);
assert_eq!(
toks,
vec![
(TokenKind::Word, "MOVE".into()),
(TokenKind::Number, "1".into()),
(TokenKind::Word, "TO".into()),
(TokenKind::Word, "X".into()),
(TokenKind::Period, ".".into()),
]
);
}
#[test]
fn fixed_format_comment_line_skipped() {
let comment = "000100* esto es un comentario y no debe tokenizar";
let code = "000200 DISPLAY 'HI'.";
let src = format!("{comment}\n{code}");
let toks = kinds(&src, SourceFormat::Fixed);
assert_eq!(
toks,
vec![
(TokenKind::Word, "DISPLAY".into()),
(TokenKind::String, "HI".into()),
(TokenKind::Period, ".".into()),
]
);
}
#[test]
fn free_format_comment_line_skipped() {
let src = "* un comentario\n*> otro comentario\nDISPLAY 1.";
let toks = kinds(src, SourceFormat::Free);
assert_eq!(toks.len(), 3); // DISPLAY 1 .
assert_eq!(toks[0], (TokenKind::Word, "DISPLAY".into()));
}
#[test]
fn line_and_column_are_tracked() {
let src = "MOVE 1\n TO X.";
let toks = lex(src, SourceFormat::Free).unwrap();
assert_eq!((toks[0].line, toks[0].col), (1, 1)); // MOVE
assert_eq!((toks[1].line, toks[1].col), (1, 6)); // 1
assert_eq!((toks[2].line, toks[2].col), (2, 3)); // TO
assert_eq!((toks[3].line, toks[3].col), (2, 6)); // X
}
#[test]
fn unterminated_string_is_an_error() {
let err = lex("MOVE 'sin cerrar", SourceFormat::Free).unwrap_err();
assert!(matches!(err, LexError::UnterminatedString { line: 1, .. }));
}
#[test]
fn unexpected_char_is_an_error() {
let err = lex("MOVE 5 ! X", SourceFormat::Free).unwrap_err();
assert!(matches!(
err,
LexError::UnexpectedChar {
ch: '!',
line: 1,
..
}
));
}
#[test]
fn empty_source_yields_no_tokens() {
assert!(lex("", SourceFormat::Free).unwrap().is_empty());
assert!(lex("\n\n \n", SourceFormat::Free).unwrap().is_empty());
}
#[test]
fn realistic_paragraph() {
let src = "\
ADD-TOTALS.
COMPUTE WS-TOTAL = WS-A + WS-B.
IF WS-TOTAL > 100
DISPLAY 'GRANDE'
END-IF.";
let toks = lex(src, SourceFormat::Free).unwrap();
// Arranca con el nombre del párrafo y su punto.
assert_eq!(toks[0].text, "ADD-TOTALS");
assert_eq!(toks[1].kind, TokenKind::Period);
// Hay un literal y el operador `>` y `=` en el medio.
assert!(toks
.iter()
.any(|t| t.kind == TokenKind::String && t.text == "GRANDE"));
assert!(toks
.iter()
.any(|t| t.kind == TokenKind::Symbol && t.text == ">"));
assert!(toks
.iter()
.any(|t| t.kind == TokenKind::Symbol && t.text == "="));
assert!(toks.iter().any(|t| t.text == "END-IF"));
}
}