add failsafe on alignment classification so that if we go no votes at all, we try again with wider range of acceptable mismatches in context.

parrt · parrt · commit 19221dd5926c · 2016-04-01T13:08:25.000-07:00
diff --git a/java/src/org/antlr/codebuff/CollectFeatures.java b/java/src/org/antlr/codebuff/CollectFeatures.java
@@ -25,6 +25,7 @@
 
 public class CollectFeatures {
 	public static final double MAX_CONTEXT_DIFF_THRESHOLD = 0.20;
+	public static final double MAX_CONTEXT_DIFF_THRESHOLD2 = 0.50;
 
 	// Feature values for pair on diff lines feature
 	public static final int NOT_PAIR = -1;
@@ -316,32 +317,6 @@ public static int getPrecedingNL(CommonTokenStream tokens, int i) {
 		return precedingNL;
 	}
 
-	public static boolean isAlignedWithFirstSiblingOfList(Map<Token, TerminalNode> tokenToNodeMap,
-														  CommonTokenStream tokens,
-														  Token curToken)
-	{
-		TerminalNode node = tokenToNodeMap.get(curToken);
-		ParserRuleContext parent = (ParserRuleContext)node.getParent();
-		ParserRuleContext earliestAncestor = earliestAncestorStartingWithToken(parent, curToken);
-		boolean aligned = false;
-
-		// at a newline, are we aligned with a prior sibling (in a list)?
-		int precedingNL = getPrecedingNL(tokens, curToken.getTokenIndex());
-		if ( precedingNL>0 && earliestAncestor!=null ) {
-			ParserRuleContext commonAncestor = earliestAncestor.getParent();
-			List<ParserRuleContext> siblings = commonAncestor.getRuleContexts(earliestAncestor.getClass());
-			if ( siblings.size()>1 ) {
-				ParserRuleContext firstSibling = siblings.get(0);
-				Token firstSiblingStartToken = firstSibling.getStart();
-				if ( firstSiblingStartToken!=curToken && // can't align with yourself
-					firstSiblingStartToken.getCharPositionInLine()==curToken.getCharPositionInLine() ) {
-					aligned = true;
-				}
-			}
-		}
-		return aligned;
-	}
-
 	/** Walk upwards from node while p.start == token; return null if there is
 	 *  no ancestor starting at token.
 	 */
diff --git a/java/src/org/antlr/codebuff/Formatter.java b/java/src/org/antlr/codebuff/Formatter.java
@@ -1,5 +1,6 @@
 package org.antlr.codebuff;
 
+import org.antlr.codebuff.misc.HashBag;
 import org.antlr.v4.runtime.CommonToken;
 import org.antlr.v4.runtime.CommonTokenStream;
 import org.antlr.v4.runtime.ParserRuleContext;
@@ -23,6 +24,7 @@
 import static org.antlr.codebuff.CollectFeatures.INDEX_FIRST_ON_LINE;
 import static org.antlr.codebuff.CollectFeatures.INDEX_PREV_END_COLUMN;
 import static org.antlr.codebuff.CollectFeatures.MAX_CONTEXT_DIFF_THRESHOLD;
+import static org.antlr.codebuff.CollectFeatures.MAX_CONTEXT_DIFF_THRESHOLD2;
 import static org.antlr.codebuff.CollectFeatures.earliestAncestorStartingWithToken;
 import static org.antlr.codebuff.CollectFeatures.getNodeFeatures;
 import static org.antlr.codebuff.CollectFeatures.getRealTokens;
@@ -124,7 +126,14 @@ public void processToken(int indexIntoRealTokens, int tokenIndexInStream) {
 		features[INDEX_FIRST_ON_LINE] = injectNewline; // use \n prediction to match exemplars for alignment
 
 		int align = alignClassifier.classify(k, features, corpus.align, MAX_CONTEXT_DIFF_THRESHOLD);
-		//indentClassifier.classify(k, features, corpus.indent, CollectFeatures.MAX_CONTEXT_DIFF_THRESHOLD);
+		if ( align==CAT_NO_ALIGNMENT ) {
+			HashBag<Integer> votes = alignClassifier.votes(k, features, corpus.align, MAX_CONTEXT_DIFF_THRESHOLD);
+			if ( votes.size()==0 ) {
+				// try with less strict match threshold to get some indication of alignment
+				align = alignClassifier.classify(k, features, corpus.align, MAX_CONTEXT_DIFF_THRESHOLD2);
+			}
+		}
+
 		int ws = wsClassifier.classify(k, features, corpus.injectWS, MAX_CONTEXT_DIFF_THRESHOLD);
 
 		TokenPositionAnalysis tokenPositionAnalysis =
@@ -150,57 +159,51 @@ public void processToken(int indexIntoRealTokens, int tokenIndexInStream) {
 			TerminalNode node = tokenToNodeMap.get(curToken);
 			ParserRuleContext parent = (ParserRuleContext)node.getParent();
 
-			switch ( align ) {
-				case CAT_INDENT :
-					if ( firstTokenOnPrevLine!=null ) { // if not on first line, we can indent indent
-						int indentedCol = firstTokenOnPrevLine.getCharPositionInLine() + INDENT_LEVEL;
-						charPosInLine = indentedCol;
-						output.append(Tool.spaces(indentedCol));
-					}
-					break;
-				case CAT_NO_ALIGNMENT :
-					break;
-
-				default :
-					if ( (align&0xFF)==CAT_ALIGN_WITH_ANCESTOR_CHILD ) {
-						int[] deltaChild = CollectFeatures.unaligncat(align);
-						int deltaFromAncestor = deltaChild[0];
-						int childIndex = deltaChild[1];
-						ParserRuleContext earliestLeftAncestor = earliestAncestorStartingWithToken(parent, curToken);
-						if ( earliestLeftAncestor==null ) {
-							earliestLeftAncestor = parent;
-						}
-						ParserRuleContext ancestor = CollectFeatures.getAncestor(earliestLeftAncestor, deltaFromAncestor);
-						ParseTree child = ancestor.getChild(childIndex);
-						Token start = null;
-						if ( child instanceof ParserRuleContext ) {
-							start = ((ParserRuleContext) child).getStart();
-						}
-						else if ( child instanceof TerminalNode ){
-							start = ((TerminalNode)child).getSymbol();
-						}
-						else {
-							// uh oh.
-							System.err.println("Whoops. Tried access invalid child");
-						}
-						if ( start!=null ) {
-							int indentCol = start.getCharPositionInLine();
-							charPosInLine = indentCol;
-							output.append(Tool.spaces(indentCol));
-						}
-					}
-					else if ( (align&0xFF)==CAT_INDENT_FROM_ANCESTOR_FIRST_TOKEN ) {
-						int deltaFromAncestor = CollectFeatures.unindentcat(align);
-						ParserRuleContext earliestLeftAncestor = earliestAncestorStartingWithToken(parent, curToken);
-						if ( earliestLeftAncestor==null ) {
-							earliestLeftAncestor = parent;
-						}
-						ParserRuleContext ancestor = CollectFeatures.getAncestor(earliestLeftAncestor, deltaFromAncestor);
-						Token start = ancestor.getStart();
-						int indentCol = start.getCharPositionInLine() + INDENT_LEVEL;
-						charPosInLine = indentCol;
-						output.append(Tool.spaces(indentCol));
-					}
+			if ( align==CAT_INDENT ) {
+				if ( firstTokenOnPrevLine!=null ) { // if not on first line, we can indent indent
+					int indentedCol = firstTokenOnPrevLine.getCharPositionInLine()+INDENT_LEVEL;
+					charPosInLine = indentedCol;
+					output.append(Tool.spaces(indentedCol));
+				}
+			}
+			else if ( (align&0xFF)==CAT_ALIGN_WITH_ANCESTOR_CHILD ) {
+				int[] deltaChild = CollectFeatures.unaligncat(align);
+				int deltaFromAncestor = deltaChild[0];
+				int childIndex = deltaChild[1];
+				ParserRuleContext earliestLeftAncestor = earliestAncestorStartingWithToken(parent, curToken);
+				if ( earliestLeftAncestor==null ) {
+					earliestLeftAncestor = parent;
+				}
+				ParserRuleContext ancestor = CollectFeatures.getAncestor(earliestLeftAncestor, deltaFromAncestor);
+				ParseTree child = ancestor.getChild(childIndex);
+				Token start = null;
+				if ( child instanceof ParserRuleContext ) {
+					start = ((ParserRuleContext) child).getStart();
+				}
+				else if ( child instanceof TerminalNode ){
+					start = ((TerminalNode)child).getSymbol();
+				}
+				else {
+					// uh oh.
+					System.err.println("Whoops. Tried access invalid child");
+				}
+				if ( start!=null ) {
+					int indentCol = start.getCharPositionInLine();
+					charPosInLine = indentCol;
+					output.append(Tool.spaces(indentCol));
+				}
+			}
+			else if ( (align&0xFF)==CAT_INDENT_FROM_ANCESTOR_FIRST_TOKEN ) {
+				int deltaFromAncestor = CollectFeatures.unindentcat(align);
+				ParserRuleContext earliestLeftAncestor = earliestAncestorStartingWithToken(parent, curToken);
+				if ( earliestLeftAncestor==null ) {
+					earliestLeftAncestor = parent;
+				}
+				ParserRuleContext ancestor = CollectFeatures.getAncestor(earliestLeftAncestor, deltaFromAncestor);
+				Token start = ancestor.getStart();
+				int indentCol = start.getCharPositionInLine() + INDENT_LEVEL;
+				charPosInLine = indentCol;
+				output.append(Tool.spaces(indentCol));
 			}
 		}
 		else {
diff --git a/java/src/org/antlr/codebuff/Tool.java b/java/src/org/antlr/codebuff/Tool.java
@@ -34,19 +34,32 @@ public static void main(String[] args)
 		throws Exception
 	{
 		if ( args.length<2 ) {
-			System.err.println("ExtractFeatures root-dir-of-samples test-file");
+			System.err.println("ExtractFeatures [-java|-antlr] root-dir-of-samples test-file");
 		}
 		int tabSize = 4; // TODO: MAKE AN ARGUMENT
-		String corpusDir = args[0];
-		String testFilename = args[1];
-		Corpus corpus = train(corpusDir, JavaLexer.class, JavaParser.class, tabSize);
-		InputDocument testDoc = load(testFilename, JavaLexer.class, tabSize);
-		Pair<String,List<TokenPositionAnalysis>> results = format(corpus, testDoc, tabSize);
-		String output = results.a;
-		List<TokenPositionAnalysis> analysisPerToken = results.b;
+		String language = args[0];
+		String corpusDir = args[1];
+		String testFilename = args[2];
+		String output;
+		if ( language.equals("-java") ) {
+			Corpus corpus = train(corpusDir, JavaLexer.class, JavaParser.class, tabSize);
+			InputDocument testDoc = load(testFilename, JavaLexer.class, tabSize);
+			Pair<String,List<TokenPositionAnalysis>> results = format(corpus, testDoc, tabSize);
+			output = results.a;
+			List<TokenPositionAnalysis> analysisPerToken = results.b;
+			GUIController controller = new GUIController(analysisPerToken, testDoc, output, JavaLexer.class);
+			controller.show();
+		}
+		else {
+			Corpus corpus = train(corpusDir, ANTLRv4Lexer.class, ANTLRv4Parser.class, tabSize);
+			InputDocument testDoc = load(testFilename, ANTLRv4Lexer.class, tabSize);
+			Pair<String,List<TokenPositionAnalysis>> results = format(corpus, testDoc, tabSize);
+			output = results.a;
+			List<TokenPositionAnalysis> analysisPerToken = results.b;
+			GUIController controller = new GUIController(analysisPerToken, testDoc, output, JavaLexer.class);
+			controller.show();
+		}
 		System.out.println(output);
-		GUIController controller = new GUIController(analysisPerToken, testDoc, output, JavaLexer.class);
-		controller.show();
 	}
 
 	/** Given a corpus, format the document by tokenizing and using the