2003/05/03 03:18:55
[org.ibex.core.git] / src / org / xwt / js / Parser.java
index 861432c..0535d50 100644 (file)
+// Copyright 2002 Adam Megacz, see the COPYING file for licensing [GPL]
 package org.xwt.js;
+
 import org.xwt.util.*;
 import java.io.*;
 
-// FIXME: for..in
-// FIXME: delete keyword
+/** parses a stream of lexed tokens into a tree of Expr's */
 public class Parser extends Lexer {
 
+    // Constructors //////////////////////////////////////////////////////
+
     public Parser(Reader r) throws IOException { super(r); }
-    private Parser skipToken() throws IOException { getToken(); return this; }
-    
+
+    public static void main(String[] s) throws Exception {
+       Parser p = new Parser(new InputStreamReader(System.in));
+       while(true) {
+           Expr block = p.parseBlock(false);
+           if (block == null) return;
+           System.out.println(block);
+           if (p.peekToken() == -1) return;
+       }
+    }
+
+
+    // Statics ////////////////////////////////////////////////////////////
+
+    static byte[] precedence = new byte[MAX_TOKEN + 1];
+    static {
+       precedence[COMMA] = 1;
+       precedence[ASSIGN] = 2;
+       precedence[GT] = precedence[GE] = 3;
+       precedence[OR] = precedence[AND] = 4;
+       precedence[BITOR] = 5;
+       precedence[BITXOR] = 6;
+       precedence[BITAND] = 7;
+       precedence[EQ] = precedence[NE] = 8;
+       precedence[LT] = precedence[LE] = 9;
+       precedence[SHEQ] = precedence[SHNE] = 10;
+       precedence[LSH] = precedence[RSH] = precedence[URSH] = 11;
+       precedence[ADD] = precedence[SUB] = 12;
+       precedence[MUL] = precedence[DIV] = precedence[MOD] = 13;
+       precedence[BITNOT] = precedence[INSTANCEOF] = 14;
+       precedence[INC] = precedence[DEC] = 15;
+       precedence[LP] = 16;
+       precedence[DOT] = 17;
+    }
+
+
+    // Useful Types /////////////////////////////////////////////////////////
+
     /** sorta like gcc trees */
     public static class Expr {
+
        int code = -1;
 
        Expr left = null;
        Expr right = null;
-       Expr extra = null;
-
        Expr next = null;   // if this expr is part of a list
 
        String string = null;
+       Number number = null;
 
-       public Expr(String s) { this.string = s; }  // an identifier or label
-       public Expr(int code) { this(code, null, null, null); }
-       public Expr(int code, Expr left) { this(code, left, null, null); }
-       public Expr(int code, Expr left, Expr right) { this(code, left, right, null); }
-       public Expr(int code, Expr left, Expr right, Expr extra) { this.left = left; this.right = right; this.extra = extra; this.code = code; }
-    }
-    
-    /** parses a single statement */
-    public Expr parseStatement() throws IOException {
-       int tok;
-       Expr ret;
-       switch(tok = peekToken()) {
-
-       case LC:
-           ret = parseBlock(true);
-
-       case THROW: case RETURN: case ASSERT:
-           ret = new Expr(ASSERT, skipToken().parseExpr());
-
-       case GOTO: case BREAK: case CONTINUE:
-           skipToken();
-           if (getToken() == NAME)
-               ret = new Expr(tok, new Expr(string));
-           else if (tok == GOTO)
-               throw new Error("goto must be followed by a label");
-           else
-               ret = new Expr(tok);
-                       
-       default:
-           ret = parseExpr();
+       public String toString() { return toString(0); }
+       public String toString(int indent) {
+           String ret = "";
+           for(int i=0; i<indent; i++) ret += " ";
+           ret += codeToString[code];
+           if (code == NUMBER) ret += " " + number;
+           else if (string != null) ret += " \"" + string + "\"";
+           ret += "\n";
+           if (left != null) ret += left.toString(indent + 2);
+           if (right != null) ret += right.toString(indent + 2);
+           if (next != null) ret += next.toString(indent);
+           return ret;
        }
 
-       if (getToken() != SEMI) throw new Error("expected ;");
-       return ret;
+       public Expr(String s) { code = STRING; this.string = s; }  // an identifier or label
+       public Expr(Number n) { code = NUMBER; this.number = n; }  // an identifier or label
+       public Expr(int code) { this(code, null, null); }
+       public Expr(int code, String s) { this.code = code; string = s; }
+       public Expr(int code, Expr left) { this(code, left, null); }
+       public Expr(int code, Expr left, Expr right) { this.code = code; this.left = left; this.right = right; }
     }
-
+    
     /** a block is either a single statement or a list of statements surrounded by curly braces; all expressions are also statements */
     public Expr parseBlock(boolean requireBraces) throws IOException {
+       Expr ret = null;
        int tok = peekToken();
-       if (requireBraces && tok != LC) throw new Error("expected {");
-       if (tok != LC) return parseStatement();
-       skipToken();
+       boolean braced = tok == LC;
+       if (requireBraces && !braced) throw new Error("expected {");
+       if (braced) getToken();
        Expr head = null;
        Expr tail = null;
-       while(peekToken() != RC)
-           if (head == null) head = tail = parseStatement(); else tail = tail.next = parseStatement();
-       skipToken();
+       OUTER: while(true) {
+           Expr smt;
+           switch(tok = peekToken()) {
+           case -1: break OUTER;
+           case LC: smt = parseBlock(true); break;
+           case THROW: case RETURN: case ASSERT:
+               getToken();
+               smt = new Expr(tok, parseMaximalExpr());
+               if (getToken() != SEMI) throw new Error("expected ;");
+               break;
+           case GOTO: case BREAK: case CONTINUE:
+               getToken();
+               if (getToken() == NAME)
+                   smt = new Expr(tok, new Expr(string));
+               else if (tok == GOTO)
+                   throw new Error("goto must be followed by a label");
+               else
+                   smt = new Expr(tok);
+               if (getToken() != SEMI) throw new Error("expected ;");
+               break;
+
+           case RC:
+               if (braced) getToken();
+               break OUTER;
+
+           case SEMI:
+               getToken();
+               if (!braced) break OUTER;
+               continue;
+
+           default:
+               smt = parseMaximalExpr();
+               if (smt == null) {
+                   if (head == null) throw new Error("empty statement list");
+                   break OUTER;
+               }
+               break;
+           }
+           if (head == null) head = tail = smt; else tail = (tail.next = smt);
+       }
        return new Expr(LC, head);
     }
 
-    /** Subexpressions come in two flavors: starters and continuers.
-     *  Starters can appear at the start of an expression or after a
-     *  continuer, and continuers, which can appear after a starter.
-     */
-    public Expr parseExpr() throws IOException {
-       Expr e = parseStarter();
-       while(true) {
-           Expr e2 = parseContinuer(e);
-           if (e2 == null) return e;
-           e = e2;
-       }
+    /** throws an error if the next token is not <tt>code</tt> */
+    public void expect(int code) throws IOException {
+       int got = peekToken();
+       if (got != code)
+           throw new Error("expected " + codeToString[got] + ", got " + (got == -1 ? "EOL" : codeToString[got]));
     }
 
-    public Expr parseStarter() throws IOException {
-       Expr e1 = null;     
-       Expr e2 = null;     
-       Expr e3 = null;     
-       Expr head = null;
-       Expr tail = null;
-       int tok = getToken();
-       switch(tok) {
+    /** parses the largest possible expression */
+    public Expr parseMaximalExpr() throws IOException { return parseMaximalExpr(null, -1); }
+    public Expr parseMaximalExpr(Expr prefix, int minPrecedence) throws IOException {
+       Expr save = null;
+       do {
+           save = prefix;
+           if (peekToken() == -1) break;
+           prefix = parseSingleExpr(prefix, minPrecedence);
+           if (prefix == null) throw new Error("parseSingleExpr_() returned null");
+       } while (save != prefix);
+       return prefix;
+    }
+
+    /** parses the smallest possible complete expression */
+    public Expr parseSingleExpr() throws IOException { return parseSingleExpr(null, 0); }
+
+    /** parses the smallest possible complete expression beginning with prefix and only using operators with at least minPrecedence */
+    public Expr parseSingleExpr(Expr prefix, int minPrecedence) throws IOException {
+       Expr e1 = null, e2 = null, e3 = null, head = null, tail = null, ret = null;
+
+       int tok = peekToken();
+       if (minPrecedence > 0 && tok < precedence.length && precedence[tok] != 0 && precedence[tok] <= minPrecedence) return prefix;
+       getToken();
+
+       // these case arms match the precedence of operators; each arm is a precedence level.
+       switch (tok) {
+
+       case WITH: throw new Error("XWT does not allow the WITH keyword");
+       case VOID: case RESERVED: throw new Error("reserved word that you shouldn't be using");
+       case NAME: if (prefix != null) { pushBackToken(); return prefix; } else return parseMaximalExpr(new Expr(NAME, string), minPrecedence);
+       case STRING: if (prefix != null) { pushBackToken(); return prefix; } else return new Expr(string);
+       case NUMBER: if (prefix != null) { pushBackToken(); return prefix; } else return new Expr(number);
+       case NULL: case TRUE: case FALSE: case NOP: if (prefix != null) { pushBackToken(); return prefix; } else return new Expr(tok);
+
+       case COMMA: case ASSIGN: case GT: case GE: case OR: case AND:
+        case BITOR: case BITXOR: case BITAND: case EQ: case NE: case LT:
+        case LE: case SHEQ: case SHNE: case LSH: case RSH: case URSH:
+        case ADD: case SUB: case MUL: case DIV: case MOD: case DOT:
+           return new Expr(tok, prefix, parseMaximalExpr(null, precedence[tok]));
+
+       case BITNOT: case INSTANCEOF:
+           if (prefix != null) throw new Error("didn't expect non-null prefix!");
+           return new Expr(tok, parseMaximalExpr(null, precedence[tok]));
+
+       case INC: case DEC:
+           if (prefix == null) {
+               // prefix
+               return new Expr(tok, parseMaximalExpr(null, precedence[tok]));
+           } else {
+               // postfix
+               return new Expr(tok, null, prefix);
+           }
+
+       case LP:
+           if (prefix == null) {  // grouping
+               Expr r = parseMaximalExpr();
+               expect(RP);
+               return r;
+
+           } else {  // invocation
+               while(peekToken() != RP) {
+                   Expr e = parseMaximalExpr(null, precedence[COMMA]);
+                   if (head == null) head = tail = e; else tail = tail.next = e;
+                   tok = getToken();
+                   if (tok == RP) { pushBackToken(); break; }
+                   if (tok != COMMA) throw new Error("expected comma or right paren, got " + codeToString[tok]);
+               }
+               getToken();
+               return new Expr(LP, prefix, head);
+           }
+
+       case LB:
+           if (prefix != null) {
+               // subscripting
+               e1 = parseSingleExpr();
+               if (getToken() != RB) throw new Error("expected a right brace");
+               return new Expr(LB, prefix, e1);
+           } else {
+               // array ctor
+               tok = getToken();
+               while(true) {
+                   if (tok == RB) return new Expr(LB, prefix, head);
+                   if (head == null) head = tail = parseSingleExpr(); else tail = tail.next = parseSingleExpr();
+                   tok = getToken();
+                   if (tok != COMMA && tok != RP) throw new Error("expected right bracket or comma");
+               }
+           }
+           
+       case LC:
+           if (prefix != null) throw new Error("didn't expect non-null prefix");
+           tok = getToken();
+           while(true) {
+               if (tok == RC) return new Expr(LC, head);
+               if (tok != NAME) throw new Error("expecting name");
+               Expr name = parseSingleExpr();
+               if (tok != COLON) throw new Error("expecting colon");           
+               e1 = new Expr(COLON, name, parseSingleExpr());
+               if (head == null) head = tail = e1; else tail = tail.next = e1;
+               tok = getToken();
+               if (tok != COMMA && tok != RP) throw new Error("expected right curly or comma");
+           }
+           
+       case HOOK:
+           e2 = parseSingleExpr();
+           if (getToken() != COLON) throw new Error("expected colon to close ?: expression");
+           e3 = parseSingleExpr();
+           e2.next = e3;
+           return new Expr(HOOK, prefix, e2);
            
        case SWITCH: {
+           if (prefix != null) throw new Error("didn't expect non-null prefix");
            if (getToken() != LP) throw new Error("expected left paren");
-           Expr switchExpr = parseExpr();
+           Expr switchExpr = parseSingleExpr();
            if (getToken() != RP) throw new Error("expected left paren");
            if (getToken() != LC) throw new Error("expected left brace");
            Expr firstExpr = null;
            Expr lastExpr = null;
            while(true) {
                if (getToken() != CASE) throw new Error("expected CASE");
-               Expr caseExpr = parseExpr();
+               Expr caseExpr = parseSingleExpr();
                if (getToken() != COLON) throw new Error("expected COLON");
                Expr e = new Expr(CASE, caseExpr, parseBlock(false));
                if (lastExpr == null) firstExpr = e;
@@ -113,162 +271,110 @@ public class Parser extends Lexer {
        }
            
        case FUNCTION: {
+           if (prefix != null) throw new Error("didn't expect non-null prefix");
            if (getToken() != LP) throw new Error("function keyword must be followed by a left paren");
            Expr formalArgs = null, cur = null;
            tok = getToken();
            while(tok != RP) {
                if (tok != NAME) throw new Error("expected a variable name");
                if (cur == null) { formalArgs = cur = new Expr(string); }
-               else { cur.next = new Expr(string); cur = cur.next; }
+               else { cur.next = new Expr(NAME, string); cur = cur.next; }
                tok = getToken();
                if (tok == RP) break;
                if (tok != COMMA) throw new Error("function argument list must consist of alternating NAMEs and COMMAs");
                tok = getToken();
            }
-           return new Expr(tok, formalArgs, parseBlock(true));
+           return new Expr(FUNCTION, formalArgs, parseBlock(true));
        }
            
        case VAR:
+           if (prefix != null) throw new Error("didn't expect non-null prefix");
            while(true) {
                if (getToken() != NAME) throw new Error("variable declarations must start with a variable name");
-               Expr name = new Expr(string);
+               Expr name = new Expr(NAME, string);
                Expr initVal = null;
                tok = peekToken();
+               Expr e = null;
                if (tok == ASSIGN) {
-                   skipToken();
-                   initVal = parseExpr();
+                   getToken();
+                   initVal = parseSingleExpr();
                    tok = peekToken();
+                   e = new Expr(ASSIGN, name, initVal);
+               } else {
+                   e = new Expr(NAME, name);
                }
-               Expr e = new Expr(VAR, name, initVal);
                if (head == null) head = tail = e; else tail = tail.next = e;
                if (tok != COMMA) break;
-               skipToken();
+               getToken();
            }
            return new Expr(VAR, head);
-           
-       case LC:
-           tok = getToken();
-           while(true) {
-               if (tok == RP) return new Expr(LC, head);
-               if (tok != NAME) throw new Error("expecting name");
-               Expr name = parseExpr();
-               if (tok != COLON) throw new Error("expecting colon");           
-               e1 = new Expr(COLON, name, parseExpr());
-               if (head == null) head = tail = e1; else tail = tail.next = e1;
-               tok = getToken();
-               if (tok != COMMA && tok != RP) throw new Error("expected right curly or comma");
-           }
-           
-       case LB:
-           tok = getToken();
-           while(true) {
-               if (tok == RB) return new Expr(LB, head);
-               if (head == null) head = tail = parseExpr(); else tail = tail.next = parseExpr();
-               tok = getToken();
-               if (tok != COMMA && tok != RP) throw new Error("expected right bracket or comma");
-           }
-           
-       case NAME:
-           return new Expr(string);
-    
-       case INC: case DEC: case TYPEOF:
-           return new Expr(tok, parseExpr());
-           
-       case TRUE: case FALSE: case NOP:
-           return new Expr(tok);
-           
+
        case TRY: {
-           // FIXME: we deliberately allow you to omit braces in catch{}/finally{} if they are single statements...
+           // We deliberately allow you to omit braces in catch{}/finally{} if they are single statements...
+           if (prefix != null) throw new Error("didn't expect non-null prefix");
            Expr tryBlock = parseBlock(true);
-           while ((tok = peekToken()) == CATCH)
-               if (head == null) head = tail = parseBlock(false); else tail = tail.next = parseBlock(false);
-           if (head == null) throw new Error("try without catch");
-           return new Expr(TRY, tryBlock, head, tok == FINALLY ? skipToken().parseBlock(false) : null);
+           while ((tok = peekToken()) == CATCH || tok == FINALLY) {
+               getToken();
+               if (getToken() != LP) throw new Error("expected (");
+               if (getToken() != NAME) throw new Error("expected name");
+               Expr name = new Expr(NAME, string);
+               if (getToken() != RP) throw new Error("expected )");
+               e1 = new Expr(tok, name, parseBlock(false));
+               if (head == null) head = tail = e1; else tail = tail.next = e1;
+           }
+           if (head == null) throw new Error("try without catch or finally");
+           return new Expr(TRY, tryBlock, head);
        }
-           
+
        case IF: case WHILE: {
+           if (prefix != null) throw new Error("didn't expect non-null prefix");
            if (getToken() != LP) throw new Error("expected left paren");
-           Expr parenExpr = parseExpr();
-           if (getToken() != RP) throw new Error("expected right paren");
+           Expr parenExpr = parseMaximalExpr(null, -1);
+           int t;
+           if ((t = getToken()) != RP) throw new Error("expected right paren, but got " + codeToString[t]);
            Expr firstBlock = parseBlock(false);
-           if (tok == IF && peekToken() == ELSE) return new Expr(tok, parenExpr, firstBlock, skipToken().parseBlock(false));
+           if (tok == IF && peekToken() == ELSE) {
+               getToken();
+               firstBlock.next = parseBlock(false);
+               return new Expr(tok, parenExpr, firstBlock);
+           }
            return new Expr(tok, parenExpr, firstBlock);
        }
 
+       case IN: return prefix;
        case FOR:
-           // FIXME: for..in
+           if (prefix != null) throw new Error("didn't expect non-null prefix");
            if (getToken() != LP) throw new Error("expected left paren");
-           e1 = parseStatement();
-           e2 = parseStatement();
-           e3 = parseStatement();  // FIXME: this guy has to be okay with ending via a )
-           if (getToken() != RP) throw new Error("expected right paren");
-           throw new Error("not yet implemented");
-           //return new Expr(FOR, e1, e2, e3, parseBlock(false));
+           e1 = parseMaximalExpr(null, -1);
+           if (e1.code == NAME && peekToken() == IN) {
+               getToken();
+               e2 = parseMaximalExpr(null, -1);
+               if (getToken() != RP) throw new Error("expected right paren");
+               return new Expr(FOR, new Expr(IN, e1, e2), parseBlock(false));
+               
+           } else {
+               if (getToken() != SEMI) throw new Error("expected ;");
+               e2 = parseMaximalExpr(null, -1);
+               if (getToken() != SEMI) throw new Error("expected ;");
+               e3 = parseMaximalExpr(null, -1);
+               if (getToken() != RP) throw new Error("expected right paren");
+               return new Expr(LC, e1, new Expr(WHILE, e2, new Expr(LC, parseBlock(false), e3)));
+           }
            
        case DO: {
+           if (prefix != null) throw new Error("didn't expect non-null prefix");
            Expr firstBlock = parseBlock(false);
            if (getToken() != WHILE) throw new Error("expecting WHILE");
            if (getToken() != LP) throw new Error("expected left paren");
-           Expr whileExpr = parseExpr();
+           Expr whileExpr = parseSingleExpr();
            if (getToken() != RP) throw new Error("expected right paren");
            if (getToken() != SEMI) throw new Error("semicolon");
            return new Expr(DO, firstBlock, whileExpr);
        }
            
-       case VOID: case RESERVED:
-           throw new Error("reserved word that you shouldn't be using");
-
-       case WITH:
-           throw new Error("WITH not yet implemented"); // FIXME
-
-       default: throw new Error("I wasn't expecting a " + tok);
-       }
-    }
-       
-    // called after each parseExpr(); returns null if we can't make the expression any bigger
-    public Expr parseContinuer(Expr prefix) throws IOException {
-       Expr head = null;
-       Expr tail = null;
-       Expr e1, e2, e3;
-       Expr ret = null;
-       int tok;
-
-       // FIXME: postfix and infix operators -- need to handle precedence
-       switch (tok = getToken()) {
-
-       case BITOR: case BITXOR: case BITAND: case EQ: case NE: case LT: case LE:
-       case GT: case GE: case LSH: case RSH: case URSH: case ADD: case SUB: case MUL:
-       case DIV: case MOD: case BITNOT: case SHEQ: case SHNE: case INSTANCEOF:
-       case OR: case AND: case COMMA: case INC: case DEC:
-           throw new Error("haven't figured out how to handle postfix/infix operators yet");
-           //return new Expr(tok, prefix, (tok == INC || tok == DEC) ? null : parseExpr());
-
-       case ASSIGN:
-           throw new Error("haven't figured out how to handle postfix/infix operators yet");
-
-       case LP:
-           while(peekToken() != RP) {
-               if (head == null) head = tail = parseExpr(); else tail = tail.next = parseExpr();
-               tok = getToken();
-               if (tok == RP) break;
-               if (tok != COMMA) throw new Error("expected comma or right paren");
-           }
-           return new Expr(LP, prefix, head);
-
-       case LB:
-           e1 = parseExpr();
-           if (getToken() != RB) throw new Error("expected a right brace");
-           return new Expr(LB, prefix, e1);
-           
-       case HOOK:
-           e2 = parseExpr();
-           if (getToken() != COLON) throw new Error("expected colon to close ?: expression");
-           e3 = parseExpr();
-           return new Expr(HOOK, prefix, e2, e3);
-           
        default:
            pushBackToken();
-           return null;
+           return prefix;
        }
     }