#
#
#           The Nim Compiler
#        (c) Copyright 2015 Andreas Rumpf
#
#    See the file "copying.txt", included in this
#    distribution, for details about the copyright.
#

# This lexer is handwritten for efficiency. I used an elegant buffering
# scheme which I have not seen anywhere else:
# We guarantee that a whole line is in the buffer. Thus only when scanning
# the \n or \r character we have to check whether we need to read in the next
# chunk. (\n or \r already need special handling for incrementing the line
# counter; choosing both \n and \r allows the lexer to properly read Unix,
# DOS or Macintosh text files, even when it is not the native format.

import
  hashes, options, msgs, strutils, platform, idents, nimlexbase, llstream,
  wordrecg, lineinfos, pathutils, parseutils

when defined(nimPreviewSlimSystem):
  import std/[assertions, formatfloat]

const
  MaxLineLength* = 80         # lines longer than this lead to a warning
  numChars*: set[char] = {'0'..'9', 'a'..'z', 'A'..'Z'}
  SymChars*: set[char] = {'a'..'z', 'A'..'Z', '0'..'9', '\x80'..'\xFF'}
  SymStartChars*: set[char] = {'a'..'z', 'A'..'Z', '\x80'..'\xFF'}
  OpChars*: set[char] = {'+', '-', '*', '/', '\\', '<', '>', '!', '?', '^', '.',
    '|', '=', '%', '&', '$', '@', '~', ':'}
  UnaryMinusWhitelist = {' ', '\t', '\n', '\r', ',', ';', '(', '[', '{'}

# don't forget to update the 'highlite' module if these charsets should change

type
  TokType* = enum
    tkInvalid = "tkInvalid", tkEof = "[EOF]", # order is important here!
    tkSymbol = "tkSymbol", # keywords:
    tkAddr = "addr", tkAnd = "and", tkAs = "as", tkAsm = "asm",
    tkBind = "bind", tkBlock = "block", tkBreak = "break", tkCase = "case", tkCast = "cast",
    tkConcept = "concept", tkConst = "const", tkContinue = "continue", tkConverter = "converter",
    tkDefer = "defer", tkDiscard = "discard", tkDistinct = "distinct", tkDiv = "div", tkDo = "do",
    tkElif = "elif", tkElse = "else", tkEnd = "end", tkEnum = "enum", tkExcept = "except", tkExport = "export",
    tkFinally = "finally", tkFor = "for", tkFrom = "from", tkFunc = "func",
    tkIf = "if", tkImport = "import", tkIn = "in", tkInclude = "include", tkInterface = "interface",
    tkIs = "is", tkIsnot = "isnot", tkIterator = "iterator",
    tkLet = "let",
    tkMacro = "macro", tkMethod = "method", tkMixin = "mixin", tkMod = "mod", tkNil = "nil", tkNot = "not", tkNotin = "notin",
    tkObject = "object", tkOf = "of", tkOr = "or", tkOut = "out",
    tkProc = "proc", tkPtr = "ptr", tkRaise = "raise", tkRef = "ref", tkReturn = "return",
    tkShl = "shl", tkShr = "shr", tkStatic = "static",
    tkTemplate = "template",
    tkTry = "try", tkTuple = "tuple", tkType = "type", tkUsing = "using",
    tkVar = "var", tkWhen = "when", tkWhile = "while", tkXor = "xor",
    tkYield = "yield", # end of keywords

    tkIntLit = "tkIntLit", tkInt8Lit = "tkInt8Lit", tkInt16Lit = "tkInt16Lit",
    tkInt32Lit = "tkInt32Lit", tkInt64Lit = "tkInt64Lit",
    tkUIntLit = "tkUIntLit", tkUInt8Lit = "tkUInt8Lit", tkUInt16Lit = "tkUInt16Lit",
    tkUInt32Lit = "tkUInt32Lit", tkUInt64Lit = "tkUInt64Lit",
    tkFloatLit = "tkFloatLit", tkFloat32Lit = "tkFloat32Lit",
    tkFloat64Lit = "tkFloat64Lit", tkFloat128Lit = "tkFloat128Lit",
    tkStrLit = "tkStrLit", tkRStrLit = "tkRStrLit", tkTripleStrLit = "tkTripleStrLit",
    tkGStrLit = "tkGStrLit", tkGTripleStrLit = "tkGTripleStrLit", tkCharLit = "tkCharLit",
    tkCustomLit = "tkCustomLit",

    tkParLe = "(", tkParRi = ")", tkBracketLe = "[",
    tkBracketRi = "]", tkCurlyLe = "{", tkCurlyRi = "}",
    tkBracketDotLe = "[.", tkBracketDotRi = ".]",
    tkCurlyDotLe = "{.", tkCurlyDotRi = ".}",
    tkParDotLe = "(.", tkParDotRi = ".)",
    tkComma = ",", tkSemiColon = ";",
    tkColon = ":", tkColonColon = "::", tkEquals = "=",
    tkDot = ".", tkDotDot = "..", tkBracketLeColon = "[:",
    tkOpr, tkComment, tkAccent = "`",
    # these are fake tokens used by renderer.nim
    tkSpaces, tkInfixOpr, tkPrefixOpr, tkPostfixOpr, tkHideableStart, tkHideableEnd

  TokTypes* = set[TokType]

const
  weakTokens = {tkComma, tkSemiColon, tkColon,
                tkParRi, tkParDotRi, tkBracketRi, tkBracketDotRi,
                tkCurlyRi} # \
    # tokens that should not be considered for previousToken
  tokKeywordLow* = succ(tkSymbol)
  tokKeywordHigh* = pred(tkIntLit)

type
  NumericalBase* = enum
    base10,                   # base10 is listed as the first element,
                              # so that it is the correct default value
    base2, base8, base16

  Token* = object             # a Nim token
    tokType*: TokType         # the type of the token
    indent*: int              # the indentation; != -1 if the token has been
                              # preceded with indentation
    ident*: PIdent            # the parsed identifier
    iNumber*: BiggestInt      # the parsed integer literal
    fNumber*: BiggestFloat    # the parsed floating point literal
    base*: NumericalBase      # the numerical base; only valid for int
                              # or float literals
    strongSpaceA*: int8       # leading spaces of an operator
    strongSpaceB*: int8       # trailing spaces of an operator
    literal*: string          # the parsed (string) literal; and
                              # documentation comments are here too
    line*, col*: int
    when defined(nimpretty):
      offsetA*, offsetB*: int # used for pretty printing so that literals
                              # like 0b01 or  r"\L" are unaffected
      commentOffsetA*, commentOffsetB*: int

  ErrorHandler* = proc (conf: ConfigRef; info: TLineInfo; msg: TMsgKind; arg: string)
  Lexer* = object of TBaseLexer
    fileIdx*: FileIndex
    indentAhead*: int         # if > 0 an indentation has already been read
                              # this is needed because scanning comments
                              # needs so much look-ahead
    currLineIndent*: int
    strongSpaces*, allowTabs*: bool
    errorHandler*: ErrorHandler
    cache*: IdentCache
    when defined(nimsuggest):
      previousToken: TLineInfo
    config*: ConfigRef

proc getLineInfo*(L: Lexer, tok: Token): TLineInfo {.inline.} =
  result = newLineInfo(L.fileIdx, tok.line, tok.col)
  when defined(nimpretty):
    result.offsetA = tok.offsetA
    result.offsetB = tok.offsetB
    result.commentOffsetA = tok.commentOffsetA
    result.commentOffsetB = tok.commentOffsetB

proc isKeyword*(kind: TokType): bool =
  (kind >= tokKeywordLow) and (kind <= tokKeywordHigh)

template ones(n): untyped = ((1 shl n)-1) # for utf-8 conversion

proc isNimIdentifier*(s: string): bool =
  let sLen = s.len
  if sLen > 0 and s[0] in SymStartChars:
    var i = 1
    while i < sLen:
      if s[i] == '_': inc(i)
      if i < sLen and s[i] notin SymChars: return
      inc(i)
    result = true

proc `$`*(tok: Token): string =
  case tok.tokType
  of tkIntLit..tkInt64Lit: $tok.iNumber
  of tkFloatLit..tkFloat64Lit: $tok.fNumber
  of tkInvalid, tkStrLit..tkCharLit, tkComment: tok.literal
  of tkParLe..tkColon, tkEof, tkAccent: $tok.tokType
  else:
    if tok.ident != nil:
      tok.ident.s
    else:
      ""

proc prettyTok*(tok: Token): string =
  if isKeyword(tok.tokType): "keyword " & tok.ident.s
  else: $tok

proc printTok*(conf: ConfigRef; tok: Token) =
  # xxx factor with toLocation
  msgWriteln(conf, $tok.line & ":" & $tok.col & "\t" & $tok.tokType & " " & $tok)

proc initToken*(L: var Token) =
  L.tokType = tkInvalid
  L.iNumber = 0
  L.indent = 0
  L.strongSpaceA = 0
  L.literal = ""
  L.fNumber = 0.0
  L.base = base10
  L.ident = nil
  when defined(nimpretty):
    L.commentOffsetA = 0
    L.commentOffsetB = 0

proc fillToken(L: var Token) =
  L.tokType = tkInvalid
  L.iNumber = 0
  L.indent = 0
  L.strongSpaceA = 0
  setLen(L.literal, 0)
  L.fNumber = 0.0
  L.base = base10
  L.ident = nil
  when defined(nimpretty):
    L.commentOffsetA = 0
    L.commentOffsetB = 0

proc openLexer*(lex: var Lexer, fileIdx: FileIndex, inputstream: PLLStream;
                 cache: IdentCache; config: ConfigRef) =
  openBaseLexer(lex, inputstream)
  lex.fileIdx = fileIdx
  lex.indentAhead = -1
  lex.currLineIndent = 0
  inc(lex.lineNumber, inputstream.lineOffset)
  lex.cache = cache
  when defined(nimsuggest):
    lex.previousToken.fileIndex = fileIdx
  lex.config = config

proc openLexer*(lex: var Lexer, filename: AbsoluteFile, inputstream: PLLStream;
                cache: IdentCache; config: ConfigRef) =
  openLexer(lex, fileInfoIdx(config, filename), inputstream, cache, config)

proc closeLexer*(lex: var Lexer) =
  if lex.config != nil:
    inc(lex.config.linesCompiled, lex.lineNumber)
  closeBaseLexer(lex)

proc getLineInfo(L: Lexer): TLineInfo =
  result = newLineInfo(L.fileIdx, L.lineNumber, getColNumber(L, L.bufpos))

proc dispMessage(L: Lexer; info: TLineInfo; msg: TMsgKind; arg: string) =
  if L.errorHandler.isNil:
    msgs.message(L.config, info, msg, arg)
  else:
    L.errorHandler(L.config, info, msg, arg)

proc lexMessage*(L: Lexer, msg: TMsgKind, arg = "") =
  L.dispMessage(getLineInfo(L), msg, arg)

proc lexMessageTok*(L: Lexer, msg: TMsgKind, tok: Token, arg = "") =
  var info = newLineInfo(L.fileIdx, tok.line, tok.col)
  L.dispMessage(info, msg, arg)

proc lexMessagePos(L: var Lexer, msg: TMsgKind, pos: int, arg = "") =
  var info = newLineInfo(L.fileIdx, L.lineNumber, pos - L.lineStart)
  L.dispMessage(info, msg, arg)

proc matchTwoChars(L: Lexer, first: char, second: set[char]): bool =
  result = (L.buf[L.bufpos] == first) and (L.buf[L.bufpos + 1] in second)

template tokenBegin(tok, pos) {.dirty.} =
  when defined(nimsuggest):
    var colA = getColNumber(L, pos)
  when defined(nimpretty):
    tok.offsetA = L.offsetBase + pos

template tokenEnd(tok, pos) {.dirty.} =
  when defined(nimsuggest):
    let colB = getColNumber(L, pos)+1
    if L.fileIdx == L.config.m.trackPos.fileIndex and L.config.m.trackPos.col in colA..colB and
        L.lineNumber == L.config.m.trackPos.line.int and L.config.ideCmd in {ideSug, ideCon}:
      L.config.m.trackPos.col = colA.int16
    colA = 0
  when defined(nimpretty):
    tok.offsetB = L.offsetBase + pos

template tokenEndIgnore(tok, pos) =
  when defined(nimsuggest):
    let colB = getColNumber(L, pos)
    if L.fileIdx == L.config.m.trackPos.fileIndex and L.config.m.trackPos.col in colA..colB and
        L.lineNumber == L.config.m.trackPos.line.int and L.config.ideCmd in {ideSug, ideCon}:
      L.config.m.trackPos.fileIndex = trackPosInvalidFileIdx
      L.config.m.trackPos.line = 0'u16
    colA = 0
  when defined(nimpretty):
    tok.offsetB = L.offsetBase + pos

template tokenEndPrevious(tok, pos) =
  when defined(nimsuggest):
    # when we detect the cursor in whitespace, we attach the track position
    # to the token that came before that, but only if we haven't detected
    # the cursor in a string literal or comment:
    let colB = getColNumber(L, pos)
    if L.fileIdx == L.config.m.trackPos.fileIndex and L.config.m.trackPos.col in colA..colB and
        L.lineNumber == L.config.m.trackPos.line.int and L.config.ideCmd in {ideSug, ideCon}:
      L.config.m.trackPos = L.previousToken
      L.config.m.trackPosAttached = true
    colA = 0
  when defined(nimpretty):
    tok.offsetB = L.offsetBase + pos

template eatChar(L: var Lexer, t: var Token, replacementChar: char) =
  t.literal.add(replacementChar)
  inc(L.bufpos)

template eatChar(L: var Lexer, t: var Token) =
  t.literal.add(L.buf[L.bufpos])
  inc(L.bufpos)

proc getNumber(L: var Lexer, result: var Token) =
  proc matchUnderscoreChars(L: var Lexer, tok: var Token, chars: set[char]): Natural =
    var pos = L.bufpos              # use registers for pos, buf
    result = 0
    while true:
      if L.buf[pos] in chars:
        tok.literal.add(L.buf[pos])
        inc(pos)
        inc(result)
      else:
        break
      if L.buf[pos] == '_':
        if L.buf[pos+1] notin chars:
          lexMessage(L, errGenerated,
            "only single underscores may occur in a token and token may not " &
            "end with an underscore: e.g. '1__1' and '1_' are invalid")
          break
        tok.literal.add('_')
        inc(pos)
    L.bufpos = pos

  proc matchChars(L: var Lexer, tok: var Token, chars: set[char]) =
    var pos = L.bufpos              # use registers for pos, buf
    while L.buf[pos] in chars:
      tok.literal.add(L.buf[pos])
      inc(pos)
    L.bufpos = pos

  proc lexMessageLitNum(L: var Lexer, msg: string, startpos: int, msgKind = errGenerated) =
    # Used to get slightly human friendlier err messages.
    const literalishChars = {'A'..'Z', 'a'..'z', '0'..'9', '_', '.', '\''}
    var msgPos = L.bufpos
    var t: Token
    t.literal = ""
    L.bufpos = startpos # Use L.bufpos as pos because of matchChars
    matchChars(L, t, literalishChars)
    # We must verify +/- specifically so that we're not past the literal
    if  L.buf[L.bufpos] in {'+', '-'} and
        L.buf[L.bufpos - 1] in {'e', 'E'}:
      t.literal.add(L.buf[L.bufpos])
      inc(L.bufpos)
      matchChars(L, t, literalishChars)
    if L.buf[L.bufpos] in literalishChars:
      t.literal.add(L.buf[L.bufpos])
      inc(L.bufpos)
      matchChars(L, t, {'0'..'9'})
    L.bufpos = msgPos
    lexMessage(L, msgKind, msg % t.literal)

  var
    xi: BiggestInt
    isBase10 = true
    numDigits = 0
  const
    # 'c', 'C' is deprecated
    baseCodeChars = {'X', 'x', 'o', 'b', 'B', 'c', 'C'}
    literalishChars = baseCodeChars + {'A'..'F', 'a'..'f', '0'..'9', '_', '\''}
    floatTypes = {tkFloatLit, tkFloat32Lit, tkFloat64Lit, tkFloat128Lit}
  result.tokType = tkIntLit   # int literal until we know better
  result.literal = ""
  result.base = base10
  tokenBegin(result, L.bufpos)

  var isPositive = true
  if L.buf[L.bufpos] == '-':
    eatChar(L, result)
    isPositive = false

  let startpos = L.bufpos

  template setNumber(field, value) =
    field = (if isPositive: value else: -value)

  # First stage: find out base, make verifications, build token literal string
  # {'c', 'C'} is added for deprecation reasons to provide a clear error message
  if L.buf[L.bufpos] == '0' and L.buf[L.bufpos + 1] in baseCodeChars + {'c', 'C', 'O'}:
    isBase10 = false
    eatChar(L, result, '0')
    case L.buf[L.bufpos]
    of 'c', 'C':
      lexMessageLitNum(L,
                       "$1 will soon be invalid for oct literals; Use '0o' " &
                       "for octals. 'c', 'C' prefix",
                       startpos,
                       warnDeprecated)
      eatChar(L, result, 'c')
      numDigits = matchUnderscoreChars(L, result, {'0'..'7'})
    of 'O':
      lexMessageLitNum(L, "$1 is an invalid int literal; For octal literals " &
                          "use the '0o' prefix.", startpos)
    of 'x', 'X':
      eatChar(L, result, 'x')
      numDigits = matchUnderscoreChars(L, result, {'0'..'9', 'a'..'f', 'A'..'F'})
    of 'o':
      eatChar(L, result, 'o')
      numDigits = matchUnderscoreChars(L, result, {'0'..'7'})
    of 'b', 'B':
      eatChar(L, result, 'b')
      numDigits = matchUnderscoreChars(L, result, {'0'..'1'})
    else:
      internalError(L.config, getLineInfo(L), "getNumber")
    if numDigits == 0:
      lexMessageLitNum(L, "invalid number: '$1'", startpos)
  else:
    discard matchUnderscoreChars(L, result, {'0'..'9'})
    if (L.buf[L.bufpos] == '.') and (L.buf[L.bufpos + 1] in {'0'..'9'}):
      result.tokType = tkFloatLit
      eatChar(L, result, '.')
      discard matchUnderscoreChars(L, result, {'0'..'9'})
    if L.buf[L.bufpos] in {'e', 'E'}:
      result.tokType = tkFloatLit
      eatChar(L, result)
      if L.buf[L.bufpos] in {'+', '-'}:
        eatChar(L, result)
      discard matchUnderscoreChars(L, result, {<style>pre { line-height: 125%; }
td.linenos .normal { color: inherit; background-color: transparent; padding-left: 5px; padding-right: 5px; }
span.linenos { color: inherit; background-color: transparent; padding-left: 5px; padding-right: 5px; }
td.linenos .special { color: #000000; background-color: #ffffc0; padding-left: 5px; padding-right: 5px; }
span.linenos.special { color: #000000; background-color: #ffffc0; padding-left: 5px; padding-right: 5px; }
.highlight .hll { background-color: #ffffcc }
.highlight .c { color: #888888 } /* Comment */
.highlight .err { color: #a61717; background-color: #e3d2d2 } /* Error */
.highlight .k { color: #008800; font-weight: bold } /* Keyword */
.highlight .ch { color: #888888 } /* Comment.Hashbang */
.highlight .cm { color: #888888 } /* Comment.Multiline */
.highlight .cp { color: #cc0000; font-weight: bold } /* Comment.Preproc */
.highlight .cpf { color: #888888 } /* Comment.PreprocFile */
.highlight .c1 { color: #888888 } /* Comment.Single */
.highlight .cs { color: #cc0000; font-weight: bold; background-color: #fff0f0 } /* Comment.Special */
.highlight .gd { color: #000000; background-color: #ffdddd } /* Generic.Deleted */
.highlight .ge { font-style: italic } /* Generic.Emph */
.highlight .ges { font-weight: bold; font-style: italic } /* Generic.EmphStrong */
.highlight .gr { color: #aa0000 } /* Generic.Error */
.highlight .gh { color: #333333 } /* Generic.Heading */
.highlight .gi { color: #000000; background-color: #ddffdd } /* Generic.Inserted */
.highlight .go { color: #888888 } /* Generic.Output */
.highlight .gp { color: #555555 } /* Generic.Prompt */
.highlight .gs { font-weight: bold } /* Generic.Strong */
.highlight .gu { color: #666666 } /* Generic.Subheading */
.highlight .gt { color: #aa0000 } /* Generic.Traceback */
.highlight .kc { color: #008800; font-weight: bold } /* Keyword.Constant */
.highlight .kd { color: #008800; font-weight: bold } /* Keyword.Declaration */
.highlight .kn { color: #008800; font-weight: bold } /* Keyword.Namespace */
.highlight .kp { color: #008800 } /* Keyword.Pseudo */
.highlight .kr { color: #008800; font-weight: bold } /* Keyword.Reserved */
.highlight .kt { color: #888888; font-weight: bold } /* Keyword.Type */
.highlight .m { color: #0000DD; font-weight: bold } /* Literal.Number */
.highlight .s { color: #dd2200; background-color: #fff0f0 } /* Literal.String */
.highlight .na { color: #336699 } /* Name.Attribute */
.highlight .nb { color: #003388 } /* Name.Builtin */
.highlight .nc { color: #bb0066; font-weight: bold } /* Name.Class */
.highlight .no { color: #003366; font-weight: bold } /* Name.Constant */
.highlight .nd { color: #555555 } /* Name.Decorator */
.highlight .ne { color: #bb0066; font-weight: bold } /* Name.Exception */
.highlight .nf { color: #0066bb; font-weight: bold } /* Name.Function */
.highlight .nl { color: #336699; font-style: italic } /* Name.Label */
.highlight .nn { color: #bb0066; font-weight: bold } /* Name.Namespace */
.highlight .py { color: #336699; font-weight: bold } /* Name.Property */
.highlight .nt { color: #bb0066; font-weight: bold } /* Name.Tag */
.highlight .nv { color: #336699 } /* Name.Variable */
.highlight .ow { color: #008800 } /* Operator.Word */
.highlight .w { color: #bbbbbb } /* Text.Whitespace */
.highlight .mb { color: #0000DD; font-weight: bold } /* Literal.Number.Bin */
.highlight .mf { color: #0000DD; font-weight: bold } /* Literal.Number.Float */
.highlight .mh { color: #0000DD; font-weight: bold } /* Literal.Number.Hex */
.highlight .mi { color: #0000DD; font-weight: bold } /* Literal.Number.Integer */
.highlight .mo { color: #0000DD; font-weight: bold } /* Literal.Number.Oct */
.highlight .sa { color: #dd2200; background-color: #fff0f0 } /* Literal.String.Affix */
.highlight .sb { color: #dd2200; background-color: #fff0f0 } /* Literal.String.Backtick */
.highlight .sc { color: #dd2200; background-color: #fff0f0 } /* Literal.String.Char */
.highlight .dl { color: #dd2200; background-color: #fff0f0 } /* Literal.String.Delimiter */
.highlight .sd { color: #dd2200; background-color: #fff0f0 } /* Literal.String.Doc */
.highlight .s2 { color: #dd2200; background-color: #fff0f0 } /* Literal.String.Double */
.highlight .se { color: #0044dd; background-color: #fff0f0 } /* Literal.String.Escape */
.highlight .sh { color: #dd2200; background-color: #fff0f0 } /* Literal.String.Heredoc */
.highlight .si { color: #3333bb; background-color: #fff0f0 } /* Literal.String.Interpol */
.highlight .sx { color: #22bb22; background-color: #f0fff0 } /* Literal.String.Other */
.highlight .sr { color: #008800; background-color: #fff0ff } /* Literal.String.Regex */
.highlight .s1 { color: #dd2200; background-color: #fff0f0 } /* Literal.String.Single */
.highlight .ss { color: #aa6600; background-color: #fff0f0 } /* Literal.String.Symbol */
.highlight .bp { color: #003388 } /* Name.Builtin.Pseudo */
.highlight .fm { color: #0066bb; font-weight: bold } /* Name.Function.Magic */
.highlight .vc { color: #336699 } /* Name.Variable.Class */
.highlight .vg { color: #dd7700 } /* Name.Variable.Global */
.highlight .vi { color: #3333bb } /* Name.Variable.Instance */
.highlight .vm { color: #336699 } /* Name.Variable.Magic */
.highlight .il { color: #0000DD; font-weight: bold } /* Literal.Number.Integer.Long */</style><div class="highlight"><pre><span></span><span class="c">#</span>
<span class="c">#</span>
<span class="c">#           The Nimrod Compiler</span>
<span class="c">#        (c) Copyright 2012 Andreas Rumpf</span>
<span class="c">#</span>
<span class="c">#    See the file &quot;copying.txt&quot;, included in this</span>
<span class="c">#    distribution, for details about the copyright.</span>
<span class="c">#</span>

<span class="sd">## Semantic analysis that deals with threads: Possible race conditions should</span>
<span class="sd">## be reported some day.</span>
<span class="sd">##</span>
<span class="sd">## </span>
<span class="sd">## ========================</span>
<span class="sd">## No heap sharing analysis</span>
<span class="sd">## ========================</span>
<span class="sd">##</span>
<span class="sd">## The only crucial operation that can violate the heap invariants is the</span>
<span class="sd">## write access. The analysis needs to distinguish between &#39;unknown&#39;, &#39;mine&#39;,</span>
<span class="sd">## and &#39;theirs&#39; memory and pointers. Assignments &#39;whatever &lt;- unknown&#39; are </span>
<span class="sd">## invalid, and so are &#39;theirs &lt;- whatever&#39; but not &#39;mine &lt;- theirs&#39;. Since</span>
<span class="sd">## strings and sequences are heap allocated they are affected too:</span>
<span class="sd">##</span>
<span class="sd">## .. code-block:: nimrod</span>
<span class="sd">##   proc p() = </span>
<span class="sd">##     global = &quot;alloc this string&quot; # ugh!</span>
<span class="sd">##</span>
<span class="sd">## Thus the analysis is concerned with any type that contains a GC&#39;ed</span>
<span class="sd">## reference...</span>
<span class="sd">## If the type system would distinguish between &#39;ref&#39; and &#39;!ref&#39; and threads</span>
<span class="sd">## could not have &#39;!ref&#39; as input parameters the analysis could simply need to</span>
<span class="sd">## reject any write access to a global variable which contains GC&#39;ed data.</span>
<span class="sd">## Thanks to the write barrier of the GC, this is exactly what needs to be</span>
<span class="sd">## done! Every write access to a global that contains GC&#39;ed data needs to</span>
<span class="sd">## be prevented! Unfortunately &#39;!ref&#39; is not implemented yet...</span>
<span class="sd">##</span>
<span class="sd">## The assignment target is essential for the algorithm: only </span>
<span class="sd">## write access to heap locations and global variables are critical and need</span>
<span class="sd">## to be checked. Access via &#39;var&#39; parameters is no problem to analyse since</span>
<span class="sd">## we need the arguments&#39; locations in the analysis.</span>
<span class="sd">##</span>
<span class="sd">## However, this is tricky: </span>
<span class="sd">##  </span>
<span class="sd">##  var x = globalVar     # &#39;x&#39; points to &#39;theirs&#39;</span>
<span class="sd">##  while true:</span>
<span class="sd">##    globalVar = x       # NOT OK: &#39;theirs &lt;- theirs&#39; invalid due to</span>
<span class="sd">##                        # write barrier!</span>
<span class="sd">##    x = &quot;new string&quot;    # ugh: &#39;x is toUnknown&#39;!</span>
<span class="sd">##</span>
<span class="sd">##  --&gt; Solution: toUnknown is never allowed anywhere!</span>
<span class="sd">##</span>
<span class="sd">##</span>
<span class="sd">## Beware that the same proc might need to be</span>
<span class="sd">## analysed multiple times! Oh and watch out for recursion! Recursion is handled</span>
<span class="sd">## by a stack of symbols that we are processing, if we come back to the same</span>
<span class="sd">## symbol, we have to skip this check (assume no error in the recursive case).</span>
<span class="sd">## However this is wrong. We need to check for the particular combination</span>
<span class="sd">## of (procsym, threadOwner(arg1), threadOwner(arg2), ...)!</span>

<span class="kn">import</span>
<span class="w">  </span><span class="n">ast</span><span class="p">,</span><span class="w"> </span><span class="n">astalgo</span><span class="p">,</span><span class="w"> </span><span class="n">strutils</span><span class="p">,</span><span class="w"> </span><span class="n">hashes</span><span class="p">,</span><span class="w"> </span><span class="n">options</span><span class="p">,</span><span class="w"> </span><span class="n">msgs</span><span class="p">,</span><span class="w"> </span><span class="n">idents</span><span class="p">,</span><span class="w"> </span><span class="n">types</span><span class="p">,</span><span class="w"> </span><span class="n">os</span><span class="p">,</span>
<span class="w">  </span><span class="n">renderer</span><span class="p">,</span><span class="w"> </span><span class="n">tables</span><span class="p">,</span><span class="w"> </span><span class="n">rodread</span>

<span class="k">type</span>
<span class="w">  </span><span class="n">TThreadOwner</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k">enum</span>
<span class="w">    </span><span class="n">toUndefined</span><span class="p">,</span><span class="w"> </span><span class="c"># not computed yet </span>
<span class="w">    </span><span class="n">toVoid</span><span class="p">,</span><span class="w">      </span><span class="c"># no return type</span>
<span class="w">    </span><span class="n">toNil</span><span class="p">,</span><span class="w">       </span><span class="c"># cycle in computation or nil: can be overwritten</span>
<span class="w">    </span><span class="n">toTheirs</span><span class="p">,</span><span class="w">    </span><span class="c"># some other heap</span>
<span class="w">    </span><span class="n">toMine</span><span class="w">       </span><span class="c"># mine heap</span>

<span class="w">  </span><span class="n">TCall</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k">object</span><span class="w"> </span><span class="sx">{.pure.}</span>
<span class="w">    </span><span class="n">callee</span><span class="p">:</span><span class="w"> </span><span class="n">PSym</span><span class="w">              </span><span class="c"># what if callee is an indirect call?</span>
<span class="w">    </span><span class="n">args</span><span class="p">:</span><span class="w"> </span><span class="nb">seq</span><span class="o">[</span><span class="n">TThreadOwner</span><span class="o">]</span>

<span class="w">  </span><span class="n">PProcCtx</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k">ref</span><span class="w"> </span><span class="n">TProcCtx</span>
<span class="w">  </span><span class="n">TProcCtx</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k">object</span><span class="w"> </span><span class="sx">{.pure.}</span>
<span class="w">    </span><span class="n">nxt</span><span class="p">:</span><span class="w"> </span><span class="n">PProcCtx</span><span class="w">             </span><span class="c"># can be stacked</span>
<span class="w">    </span><span class="n">mapping</span><span class="p">:</span><span class="w"> </span><span class="n">tables</span><span class="p">.</span><span class="n">TTable</span><span class="o">[</span><span class="nb">int</span><span class="p">,</span><span class="w"> </span><span class="n">TThreadOwner</span><span class="o">]</span><span class="w"> </span><span class="c"># int = symbol ID</span>
<span class="w">    </span><span class="n">owner</span><span class="p">:</span><span class="w"> </span><span class="n">PSym</span><span class="w">               </span><span class="c"># current owner</span>

<span class="kd">var</span>
<span class="w">  </span><span class="n">computed</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">tables</span><span class="p">.</span><span class="n">initTable</span><span class="o">[</span><span class="n">TCall</span><span class="p">,</span><span class="w"> </span><span class="n">TThreadOwner</span><span class="o">]</span><span class="p">()</span>

<span class="k">proc</span><span class="w"> </span><span class="nf">hash</span><span class="p">(</span><span class="n">c</span><span class="p">:</span><span class="w"> </span><span class="n">TCall</span><span class="p">):</span><span class="w"> </span><span class="n">THash</span><span class="w"> </span><span class="o">=</span>
<span class="w">  </span><span class="n">result</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">hash</span><span class="p">(</span><span class="n">c</span><span class="p">.</span><span class="n">callee</span><span class="p">.</span><span class="n">id</span><span class="p">)</span>
<span class="w">  </span><span class="k">for</span><span class="w"> </span><span class="n">a</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="n">items</span><span class="p">(</span><span class="n">c</span><span class="p">.</span><span class="n">args</span><span class="p">):</span><span class="w"> </span><span class="n">result</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">result</span><span class="w"> </span><span class="o">!&amp;</span><span class="w"> </span><span class="n">hash</span><span class="p">(</span><span class="n">ord</span><span class="p">(</span><span class="n">a</span><span class="p">))</span>
<span class="w">  </span><span class="n">result</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="o">!$</span><span class="n">result</span>

<span class="k">proc</span><span class="w"> </span><span class="nf">`==`</span><span class="p">(</span><span class="n">a</span><span class="p">,</span><span class="w"> </span><span class="n">b</span><span class="p">:</span><span class="w"> </span><span class="n">TCall</span><span class="p">):</span><span class="w"> </span><span class="nb">bool</span><span class="w"> </span><span class="o">=</span>
<span class="w">  </span><span class="k">if</span><span class="w"> </span><span class="n">a</span><span class="p">.</span><span class="n">callee</span><span class="w"> </span><span class="o">!=</span><span class="w"> </span><span class="n">b</span><span class="p">.</span><span class="n">callee</span><span class="p">:</span><span class="w"> </span><span class="k">return</span>
<span class="w">  </span><span class="k">if</span><span class="w"> </span><span class="n">a</span><span class="p">.</span><span class="n">args</span><span class="p">.</span><span class="n">len</span><span class="w"> </span><span class="o">!=</span><span class="w"> </span><span class="n">b</span><span class="p">.</span><span class="n">args</span><span class="p">.</span><span class="n">len</span><span class="p">:</span><span class="w"> </span><span class="k">return</span>
<span class="w">  </span><span class="k">for</span><span class="w"> </span><span class="n">i</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="mf">0</span><span class="p">..</span><span class="n">a</span><span class="p">.</span><span class="n">args</span><span class="p">.</span><span class="n">len</span><span class="o">-</span><span class="mi">1</span><span class="p">:</span>
<span class="w">    </span><span class="k">if</span><span class="w"> </span><span class="n">a</span><span class="p">.</span><span class="n">args</span><span class="o">[</span><span class="n">i</span><span class="o">]</span><span class="w"> </span><span class="o">!=</span><span class="w"> </span><span class="n">b</span><span class="p">.</span><span class="n">args</span><span class="o">[</span><span class="n">i</span><span class="o">]</span><span class="p">:</span><span class="w"> </span><span class="k">return</span>
<span class="w">  </span><span class="n">result</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="kp">true</span>

<span class="k">proc</span><span class="w"> </span><span class="nf">newProcCtx</span><span class="p">(</span><span class="n">owner</span><span class="p">:</span><span class="w"> </span><span class="n">PSym</span><span class="p">):</span><span class="w"> </span><span class="n">PProcCtx</span><span class="w"> </span><span class="o">=</span>
<span class="w">  </span><span class="n">assert</span><span class="w"> </span><span class="n">owner</span><span class="w"> </span><span class="o">!=</span><span class="w"> </span><span class="kp">nil</span>
<span class="w">  </span><span class="n">new</span><span class="p">(</span><span class="n">result</span><span class="p">)</span>
<span class="w">  </span><span class="n">result</span><span class="p">.</span><span class="n">mapping</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">tables</span><span class="p">.</span><span class="n">InitTable</span><span class="o">[</span><span class="nb">int</span><span class="p">,</span><span class="w"> </span><span class="n">TThreadOwner</span><span class="o">]</span><span class="p">()</span>
<span class="w">  </span><span class="n">result</span><span class="p">.</span><span class="n">owner</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">owner</span>

<span class="k">proc</span><span class="w"> </span><span class="nf">analyse</span><span class="p">(</span><span class="n">c</span><span class="p">:</span><span class="w"> </span><span class="n">PProcCtx</span><span class="p">,</span><span class="w"> </span><span class="n">n</span><span class="p">:</span><span class="w"> </span><span class="n">PNode</span><span class="p">):</span><span class="w"> </span><span class="n">TThreadOwner</span>

<span class="k">proc</span><span class="w"> </span><span class="nf">analyseSym</span><span class="p">(</span><span class="n">c</span><span class="p">:</span><span class="w"> </span><span class="n">PProcCtx</span><span class="p">,</span><span class="w"> </span><span class="n">n</span><span class="p">:</span><span class="w"> </span><span class="n">PNode</span><span class="p">):</span><span class="w"> </span><span class="n">TThreadOwner</span><span class="w"> </span><span class="o">=</span>
<span class="w">  </span><span class="kd">var</span><span class="w"> </span><span class="n">v</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">n</span><span class="p">.</span><span class="n">sym</span>
<span class="w">  </span><span class="n">result</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">c</span><span class="p">.</span><span class="n">mapping</span><span class="o">[</span><span class="n">v</span><span class="p">.</span><span class="n">id</span><span class="o">]</span>
<span class="w">  </span><span class="k">if</span><span class="w"> </span><span class="n">result</span><span class="w"> </span><span class="o">!=</span><span class="w"> </span><span class="n">toUndefined</span><span class="p">:</span><span class="w"> </span><span class="k">return</span>
<span class="w">  </span><span class="k">case</span><span class="w"> </span><span class="n">v</span><span class="p">.</span><span class="n">kind</span>
<span class="w">  </span><span class="k">of</span><span class="w"> </span><span class="nl">skVar</span><span class="p">,</span><span class="w"> </span><span class="nl">skLet</span><span class="p">,</span><span class="w"> </span><span class="nl">skResult</span><span class="o">:</span>
<span class="w">    </span><span class="n">result</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">toNil</span>
<span class="w">    </span><span class="k">if</span><span class="w"> </span><span class="n">sfGlobal</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="n">v</span><span class="p">.</span><span class="n">flags</span><span class="p">:</span>
<span class="w">      </span><span class="k">if</span><span class="w"> </span><span class="n">sfThread</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="n">v</span><span class="p">.</span><span class="n">flags</span><span class="p">:</span><span class="w"> </span>
<span class="w">        </span><span class="n">result</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">toMine</span><span class="w"> </span>
<span class="w">      </span><span class="k">elif</span><span class="w"> </span><span class="n">containsGarbageCollectedRef</span><span class="p">(</span><span class="n">v</span><span class="p">.</span><span class="n">typ</span><span class="p">):</span>
<span class="w">        </span><span class="n">result</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">toTheirs</span>
<span class="w">  </span><span class="k">of</span><span class="w"> </span><span class="nl">skTemp</span><span class="p">,</span><span class="w"> </span><span class="nl">skForVar</span><span class="o">:</span><span class="w"> </span><span class="n">result</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">toNil</span>
<span class="w">  </span><span class="k">of</span><span class="w"> </span><span class="nl">skConst</span><span class="o">:</span><span class="w"> </span><span class="n">result</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">toMine</span>
<span class="w">  </span><span class="k">of</span><span class="w"> </span><span class="nl">skParam</span><span class="o">:</span><span class="w"> </span>
<span class="w">    </span><span class="n">result</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">c</span><span class="p">.</span><span class="n">mapping</span><span class="o">[</span><span class="n">v</span><span class="p">.</span><span class="n">id</span><span class="o">]</span>
<span class="w">    </span><span class="k">if</span><span class="w"> </span><span class="n">result</span><span class="w"> </span><span class="o">==</span><span class="w"> </span><span class="n">toUndefined</span><span class="p">:</span>
<span class="w">      </span><span class="n">InternalError</span><span class="p">(</span><span class="n">n</span><span class="p">.</span><span class="n">info</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;param not set: &quot;</span><span class="w"> </span><span class="o">&amp;</span><span class="w"> </span><span class="n">v</span><span class="p">.</span><span class="n">name</span><span class="p">.</span><span class="n">s</span><span class="p">)</span>
<span class="w">  </span><span class="k">else</span><span class="p">:</span>
<span class="w">    </span><span class="n">result</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">toNil</span>
<span class="w">  </span><span class="n">c</span><span class="p">.</span><span class="n">mapping</span><span class="o">[</span><span class="n">v</span><span class="p">.</span><span class="n">id</span><span class="o">]</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">result</span>

<span class="k">proc</span><span class="w"> </span><span class="nf">lvalueSym</span><span class="p">(</span><span class="n">n</span><span class="p">:</span><span class="w"> </span><span class="n">PNode</span><span class="p">):</span><span class="w"> </span><span class="n">PNode</span><span class="w"> </span><span class="o">=</span>
<span class="w">  </span><span class="n">result</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">n</span>
<span class="w">  </span><span class="k">while</span><span class="w"> </span><span class="n">result</span><span class="p">.</span><span class="n">kind</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="p">{</span><span class="n">nkDotExpr</span><span class="p">,</span><span class="w"> </span><span class="n">nkCheckedFieldExpr</span><span class="p">,</span>
<span class="w">                        </span><span class="n">nkBracketExpr</span><span class="p">,</span><span class="w"> </span><span class="n">nkDerefExpr</span><span class="p">,</span><span class="w"> </span><span class="n">nkHiddenDeref</span><span class="p">}:</span>
<span class="w">    </span><span class="n">result</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">result</span><span class="p">.</span><span class="n">sons</span><span class="o">[</span><span class="mi">0</span><span class="o">]</span>

<span class="k">proc</span><span class="w"> </span><span class="nf">writeAccess</span><span class="p">(</span><span class="n">c</span><span class="p">:</span><span class="w"> </span><span class="n">PProcCtx</span><span class="p">,</span><span class="w"> </span><span class="n">n</span><span class="p">:</span><span class="w"> </span><span class="n">PNode</span><span class="p">,</span><span class="w"> </span><span class="n">owner</span><span class="p">:</span><span class="w"> </span><span class="n">TThreadOwner</span><span class="p">)</span><span class="w"> </span><span class="o">=</span>
<span class="w">  </span><span class="k">if</span><span class="w"> </span><span class="n">owner</span><span class="w"> </span><span class="ow">notin</span><span class="w"> </span><span class="p">{</span><span class="n">toNil</span><span class="p">,</span><span class="w"> </span><span class="n">toMine</span><span class="p">,</span><span class="w"> </span><span class="n">toTheirs</span><span class="p">}:</span>
<span class="w">    </span><span class="n">InternalError</span><span class="p">(</span><span class="n">n</span><span class="p">.</span><span class="n">info</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;writeAccess: &quot;</span><span class="w"> </span><span class="o">&amp;</span><span class="w"> </span><span class="o">$</span><span class="n">owner</span><span class="p">)</span>
<span class="w">  </span><span class="kd">var</span><span class="w"> </span><span class="n">a</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">lvalueSym</span><span class="p">(</span><span class="n">n</span><span class="p">)</span>
<span class="w">  </span><span class="k">if</span><span class="w"> </span><span class="n">a</span><span class="p">.</span><span class="n">kind</span><span class="w"> </span><span class="o">==</span><span class="w"> </span><span class="n">nkSym</span><span class="p">:</span><span class="w"> </span>
<span class="w">    </span><span class="kd">var</span><span class="w"> </span><span class="n">v</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">a</span><span class="p">.</span><span class="n">sym</span>
<span class="w">    </span><span class="kd">var</span><span class="w"> </span><span class="n">lastOwner</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">analyseSym</span><span class="p">(</span><span class="n">c</span><span class="p">,</span><span class="w"> </span><span class="n">a</span><span class="p">)</span>
<span class="w">    </span><span class="k">case</span><span class="w"> </span><span class="n">lastOwner</span>
<span class="w">    </span><span class="k">of</span><span class="w"> </span><span class="nl">toNil</span><span class="o">:</span>
<span class="w">      </span><span class="c"># fine, toNil can be overwritten</span>
<span class="w">      </span><span class="kd">var</span><span class="w"> </span><span class="n">newOwner</span><span class="p">:</span><span class="w"> </span><span class="n">TThreadOwner</span>
<span class="w">      </span><span class="k">if</span><span class="w"> </span><span class="n">sfGlobal</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="n">v</span><span class="p">.</span><span class="n">flags</span><span class="p">:</span>
<span class="w">        </span><span class="n">newOwner</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">owner</span>
<span class="w">      </span><span class="k">elif</span><span class="w"> </span><span class="n">containsTyRef</span><span class="p">(</span><span class="n">v</span><span class="p">.</span><span class="n">typ</span><span class="p">):</span>
<span class="w">        </span><span class="c"># ``var local = gNode`` --&gt; ok, but ``local`` is theirs! </span>
<span class="w">        </span><span class="n">newOwner</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">owner</span>
<span class="w">      </span><span class="k">else</span><span class="p">:</span>
<span class="w">        </span><span class="c"># ``var local = gString`` --&gt; string copy: ``local`` is mine! </span>
<span class="w">        </span><span class="n">newOwner</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">toMine</span>
<span class="w">        </span><span class="c"># XXX BUG what if the tuple contains both ``tyRef`` and ``tyString``?</span>
<span class="w">      </span><span class="n">c</span><span class="p">.</span><span class="n">mapping</span><span class="o">[</span><span class="n">v</span><span class="p">.</span><span class="n">id</span><span class="o">]</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">newOwner</span>
<span class="w">    </span><span class="k">of</span><span class="w"> </span><span class="nl">toVoid</span><span class="p">,</span><span class="w"> </span><span class="nl">toUndefined</span><span class="o">:</span><span class="w"> </span><span class="n">InternalError</span><span class="p">(</span><span class="n">n</span><span class="p">.</span><span class="n">info</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;writeAccess&quot;</span><span class="p">)</span>
<span class="w">    </span><span class="k">of</span><span class="w"> </span><span class="nl">toTheirs</span><span class="o">:</span><span class="w"> </span><span class="n">Message</span><span class="p">(</span><span class="n">n</span><span class="p">.</span><span class="n">info</span><span class="p">,</span><span class="w"> </span><span class="n">warnWriteToForeignHeap</span><span class="p">)</span>
<span class="w">    </span><span class="k">of</span><span class="w"> </span><span class="nl">toMine</span><span class="o">:</span>
<span class="w">      </span><span class="k">if</span><span class="w"> </span><span class="n">lastOwner</span><span class="w"> </span><span class="o">!=</span><span class="w"> </span><span class="n">owner</span><span class="w"> </span><span class="ow">and</span><span class="w"> </span><span class="n">owner</span><span class="w"> </span><span class="o">!=</span><