Fix indent calculation with tabs when computing prefixes (#595)

[etc/vim.git] / blib2to3 / pgen2 / driver.py
diff --git a/blib2to3/pgen2/driver.py b/blib2to3/pgen2/driver.py

index cbc58e759d5374e3980f1402ab708d0888cda59c..6626c055d2eb141a8b17136639ec338e56f52d0b 100644 (file)
--- a/blib2to3/pgen2/driver.py
+++ b/blib2to3/pgen2/driver.py
@@ -43,6 +43,7 @@ class Driver(object):
          p.setup()
          lineno = 1
          column = 0
          p.setup()
          lineno = 1
          column = 0
+        indent_columns = []
          type = value = start = end = line_text = None
          prefix = ""
          for quintuple in tokens:
          type = value = start = end = line_text = None
          prefix = ""
          for quintuple in tokens:
@@ -69,11 +70,21 @@ class Driver(object):
              if debug:
                  self.logger.debug("%s %r (prefix=%r)",
                                    token.tok_name[type], value, prefix)
              if debug:
                  self.logger.debug("%s %r (prefix=%r)",
                                    token.tok_name[type], value, prefix)
+            if type == token.INDENT:
+                indent_columns.append(len(value))
+                _prefix = prefix + value
+                prefix = ""
+                value = ""
+            elif type == token.DEDENT:
+                _indent_col = indent_columns.pop()
+                prefix, _prefix = self._partially_consume_prefix(prefix, _indent_col)
              if p.addtoken(type, value, (prefix, start)):
                  if debug:
                      self.logger.debug("Stop.")
                  break
              prefix = ""
              if p.addtoken(type, value, (prefix, start)):
                  if debug:
                      self.logger.debug("Stop.")
                  break
              prefix = ""
+            if type in {token.INDENT, token.DEDENT}:
+                prefix = _prefix
              lineno, column = end
              if value.endswith("\n"):
                  lineno += 1
              lineno, column = end
              if value.endswith("\n"):
                  lineno += 1
@@ -103,12 +114,43 @@ class Driver(object):
          tokens = tokenize.generate_tokens(io.StringIO(text).readline)
          return self.parse_tokens(tokens, debug)
  
          tokens = tokenize.generate_tokens(io.StringIO(text).readline)
          return self.parse_tokens(tokens, debug)
  
-
-def _generate_pickle_name(gt):
+    def _partially_consume_prefix(self, prefix, column):
+        lines = []
+        current_line = ""
+        current_column = 0
+        wait_for_nl = False
+        for char in prefix:
+            current_line += char
+            if wait_for_nl:
+                if char == '\n':
+                    if current_line.strip() and current_column < column:
+                        res = ''.join(lines)
+                        return res, prefix[len(res):]
+
+                    lines.append(current_line)
+                    current_line = ""
+                    current_column = 0
+                    wait_for_nl = False
+            elif char in ' \t':
+                current_column += 1
+            elif char == '\n':
+                # unexpected empty line
+                current_column = 0
+            else:
+                # indent is finished
+                wait_for_nl = True
+        return ''.join(lines), current_line
+
+
+def _generate_pickle_name(gt, cache_dir=None):
      head, tail = os.path.splitext(gt)
      if tail == ".txt":
          tail = ""
      head, tail = os.path.splitext(gt)
      if tail == ".txt":
          tail = ""
-    return head + tail + ".".join(map(str, sys.version_info)) + ".pickle"
+    name = head + tail + ".".join(map(str, sys.version_info)) + ".pickle"
+    if cache_dir:
+        return os.path.join(cache_dir, os.path.basename(name))
+    else:
+        return name
  
  
  def load_grammar(gt="Grammar.txt", gp=None,
  
  
  def load_grammar(gt="Grammar.txt", gp=None,
@@ -141,7 +183,7 @@ def _newer(a, b):
      return os.path.getmtime(a) >= os.path.getmtime(b)
  
  
      return os.path.getmtime(a) >= os.path.getmtime(b)
  
  
-def load_packaged_grammar(package, grammar_source):
+def load_packaged_grammar(package, grammar_source, cache_dir=None):
      """Normally, loads a pickled grammar by doing
          pkgutil.get_data(package, pickled_grammar)
      where *pickled_grammar* is computed from *grammar_source* by adding the
      """Normally, loads a pickled grammar by doing
          pkgutil.get_data(package, pickled_grammar)
      where *pickled_grammar* is computed from *grammar_source* by adding the
@@ -153,8 +195,9 @@ def load_packaged_grammar(package, grammar_source):
  
      """
      if os.path.isfile(grammar_source):
  
      """
      if os.path.isfile(grammar_source):
-        return load_grammar(grammar_source)
-    pickled_name = _generate_pickle_name(os.path.basename(grammar_source))
+        gp = _generate_pickle_name(grammar_source, cache_dir) if cache_dir else None
+        return load_grammar(grammar_source, gp=gp)
+    pickled_name = _generate_pickle_name(os.path.basename(grammar_source), cache_dir)
      data = pkgutil.get_data(package, pickled_name)
      g = grammar.Grammar()
      g.loads(data)
      data = pkgutil.get_data(package, pickled_name)
      g = grammar.Grammar()
      g.loads(data)