" => (block: parser.genericRCDATAElementParsingAlgorithm(token)) "<noscript>" => (block: if not parser.opts.scripting: discard parser.insertHTMLElement(token) parser.insertionMode = IN_HEAD_NOSCRIPT else: parser.genericRawtextElementParsingAlgorithm(token) ) ("<noframes>", "<style>") => (block: parser.genericRawtextElementParsingAlgorithm(token)) "<script>" => (block: let location = parser.appropriatePlaceForInsert() let element = parser.createElement(token, Namespace.HTML, location.inside) #TODO document.write (?) parser.insert(location, element) parser.pushElement(element) parser.tokenizer.state = SCRIPT_DATA parser.oldInsertionMode = parser.insertionMode parser.insertionMode = TEXT ) "</head>" => (block: pop_current_node parser.insertionMode = AFTER_HEAD ) ("</body>", "</html>", "</br>") => (block: anything_else) "<template>" => (block: discard parser.insertHTMLElement(token) parser.activeFormatting.add((nil, nil)) parser.framesetok = false parser.insertionMode = IN_TEMPLATE parser.templateModes.add(IN_TEMPLATE) ) "</template>" => (block: if not parser.hasElement(TAG_TEMPLATE): parse_error ELEMENT_NOT_IN_OPEN_ELEMENTS else: parser.generateImpliedEndTagsThoroughly() if parser.getTagType(parser.currentNode) != TAG_TEMPLATE: parse_error MISMATCHED_TAGS parser.popElementsIncl(TAG_TEMPLATE) parser.clearActiveFormattingTillMarker() discard parser.templateModes.pop() parser.resetInsertionMode() ) ("<head>", TokenType.END_TAG) => (block: parse_error UNEXPECTED_END_TAG) _ => (block: pop_current_node parser.insertionMode = AFTER_HEAD reprocess token ) of IN_HEAD_NOSCRIPT: match token: TokenType.DOCTYPE => (block: parse_error UNEXPECTED_DOCTYPE) "<html>" => (block: parser.processInHTMLContent(token, IN_BODY)) "</noscript>" => (block: pop_current_node parser.insertionMode = IN_HEAD ) (AsciiWhitespace, TokenType.COMMENT, "<basefont>", "<bgsound>", "<link>", "<meta>", "<noframes>", "<style>") => (block: parser.processInHTMLContent(token, IN_HEAD)) "</br>" => (block: anything_else) ("<head>", "<noscript>") => (block: parse_error UNEXPECTED_START_TAG) TokenType.END_TAG => (block: parse_error UNEXPECTED_END_TAG) _ => (block: pop_current_node parser.insertionMode = IN_HEAD reprocess token ) of AFTER_HEAD: match token: AsciiWhitespace => (block: parser.insertCharacter(token.c)) TokenType.COMMENT => (block: parser.insertComment(token)) TokenType.DOCTYPE => (block: parse_error UNEXPECTED_DOCTYPE) "<html>" => (block: parser.processInHTMLContent(token, IN_BODY)) "<body>" => (block: discard parser.insertHTMLElement(token) parser.framesetok = false parser.insertionMode = IN_BODY ) "<frameset>" => (block: discard parser.insertHTMLElement(token) parser.insertionMode = IN_FRAMESET ) ("<base>", "<basefont>", "<bgsound>", "<link>", "<meta>", "<noframes>", "<script>", "<style>", "<template>", "<title>") => (block: parse_error UNEXPECTED_START_TAG parser.pushElement(parser.head.get) parser.processInHTMLContent(token, IN_HEAD) for i in countdown(parser.openElements.high, 0): if parser.openElements[i] == parser.head.get: parser.openElements.delete(i) ) "</template>" => (block: parser.processInHTMLContent(token, IN_HEAD)) ("</body>", "</html>", "</br>") => (block: anything_else) ("<head>") => (block: parse_error UNEXPECTED_START_TAG) (TokenType.END_TAG) => (block: parse_error UNEXPECTED_END_TAG) _ => (block: discard parser.insertHTMLElement(Token(t: START_TAG, tagtype: TAG_BODY)) parser.insertionMode = IN_BODY reprocess token ) of IN_BODY: template any_other_start_tag() = parser.reconstructActiveFormatting() discard parser.insertHTMLElement(token) template any_other_end_tag() = for i in countdown(parser.openElements.high, 0): let node = parser.openElements[i] if parser.tagNameEquals(node, token): parser.generateImpliedEndTags(token.tagtype) if node != parser.currentNode: parse_error ELEMENT_NOT_CURRENT_NODE while parser.popElement() != node: discard break elif parser.getTagType(node) in SpecialElements: parse_error UNEXPECTED_SPECIAL_ELEMENT return template parse_error_if_body_has_disallowed_open_elements = if parser.hasParseError(): const Disallowed = AllTagTypes - { TAG_DD, TAG_DT, TAG_LI, TAG_OPTGROUP, TAG_OPTION, TAG_P, TAG_RB, TAG_RP, TAG_RT, TAG_RTC, TAG_TBODY, TAG_TD, TAG_TFOOT, TAG_TH, TAG_THEAD, TAG_TR, TAG_BODY, TAG_HTML } if parser.hasElement(Disallowed): parse_error MISMATCHED_TAGS match token: '\0' => (block: parse_error UNEXPECTED_NULL) AsciiWhitespace => (block: parser.reconstructActiveFormatting() parser.insertCharacter(token.c) ) TokenType.CHARACTER_ASCII => (block: parser.reconstructActiveFormatting() parser.insertCharacter(token.c) parser.framesetOk = false ) TokenType.CHARACTER => (block: parser.reconstructActiveFormatting() parser.insertCharacter(token.r) parser.framesetOk = false ) TokenType.COMMENT => (block: parser.insertComment(token)) TokenType.DOCTYPE => (block: parse_error UNEXPECTED_DOCTYPE) "<html>" => (block: parse_error UNEXPECTED_START_TAG if parser.hasElement(TAG_TEMPLATE): discard else: parser.addAttrsIfMissing(parser.openElements[0], token.attrs) ) ("<base>", "<basefont>", "<bgsound>", "<link>", "<meta>", "<noframes>", "<script>", "<style>", "<template>", "<title>", "</template>") => (block: parser.processInHTMLContent(token, IN_HEAD)) "<body>" => (block: parse_error UNEXPECTED_START_TAG if parser.openElements.len == 1 or parser.getTagType(parser.openElements[1]) != TAG_BODY or parser.hasElement(TAG_TEMPLATE): discard else: parser.framesetOk = false parser.addAttrsIfMissing(parser.openElements[1], token.attrs) ) "<frameset>" => (block: parse_error UNEXPECTED_START_TAG if parser.openElements.len == 1 or parser.getTagType(parser.openElements[1]) != TAG_BODY or not parser.framesetOk: discard else: parser.remove(parser.openElements[1]) pop_all_nodes ) TokenType.EOF => (block: if parser.templateModes.len > 0: parser.processInHTMLContent(token, IN_TEMPLATE) else: parse_error_if_body_has_disallowed_open_elements # stop ) "</body>" => (block: if not parser.hasElementInScope(TAG_BODY): parse_error UNEXPECTED_END_TAG else: parse_error_if_body_has_disallowed_open_elements parser.insertionMode = AFTER_BODY ) "</html>" => (block: if not parser.hasElementInScope(TAG_BODY): parse_error UNEXPECTED_END_TAG else: parse_error_if_body_has_disallowed_open_elements parser.insertionMode = AFTER_BODY reprocess token ) ("<address>", "<article>", "<aside>", "<blockquote>", "<center>", "<details>", "<dialog>", "<dir>", "<div>", "<dl>", "<fieldset>", "<figcaption>", "<figure>", "<footer>", "<header>", "<hgroup>", "<main>", "<menu>", "<nav>", "<ol>", "<p>", "<section>", "<summary>", "<ul>") => (block: if parser.hasElementInButtonScope(TAG_P): parser.closeP() discard parser.insertHTMLElement(token) ) ("<h1>", "<h2>", "<h3>", "<h4>", "<h5>", "<h6>") => (block: if parser.hasElementInButtonScope(TAG_P): parser.closeP() if parser.getTagType(parser.currentNode) in HTagTypes: parse_error NESTED_TAGS pop_current_node discard parser.insertHTMLElement(token) ) ("<pre>", "<listing>") => (block: if parser.hasElementInButtonScope(TAG_P): parser.closeP() discard parser.insertHTMLElement(token) parser.ignoreLF = true parser.framesetOk = false ) "<form>" => (block: let hasTemplate = parser.hasElement(TAG_TEMPLATE) if parser.form.isSome and not hasTemplate: parse_error NESTED_TAGS else: if parser.hasElementInButtonScope(TAG_P): parser.closeP() let element = parser.insertHTMLElement(token) if not hasTemplate: parser.form = some(element) ) "<li>" => (block: parser.framesetOk = false for i in countdown(parser.openElements.high, 0): let node = parser.openElements[i] let tagType = parser.getTagType(node) case tagType of TAG_LI: parser.generateImpliedEndTags(TAG_LI) parse_error_if_mismatch TAG_LI parser.popElementsIncl(TAG_LI) break of SpecialElements - {TAG_ADDRESS, TAG_DIV, TAG_P, TAG_LI}: break else: discard if parser.hasElementInButtonScope(TAG_P): parser.closeP() discard parser.insertHTMLElement(token) ) ("<dd>", "<dt>") => (block: parser.framesetOk = false for i in countdown(parser.openElements.high, 0): let node = parser.openElements[i] let tagType = parser.getTagType(node) case tagType of TAG_DD: parser.generateImpliedEndTags(TAG_DD) parse_error_if_mismatch TAG_DD parser.popElementsIncl(TAG_DD) break of TAG_DT: parser.generateImpliedEndTags(TAG_DT) parse_error_if_mismatch TAG_DT parser.popElementsIncl(TAG_DT) break of SpecialElements - {TAG_ADDRESS, TAG_DIV, TAG_P, TAG_DD, TAG_DT}: break else: discard if parser.hasElementInButtonScope(TAG_P): parser.closeP() discard parser.insertHTMLElement(token) ) "<plaintext>" => (block: if parser.hasElementInButtonScope(TAG_P): parser.closeP() discard parser.insertHTMLElement(token) parser.tokenizer.state = PLAINTEXT ) "<button>" => (block: if parser.hasElementInScope(TAG_BUTTON): parse_error NESTED_TAGS parser.generateImpliedEndTags() parser.popElementsIncl(TAG_BUTTON) parser.reconstructActiveFormatting() discard parser.insertHTMLElement(token) parser.framesetOk = false ) ("</address>", "</article>", "</aside>", "</blockquote>", "</button>", "</center>", "</details>", "</dialog>", "</dir>", "</div>", "</dl>", "</fieldset>", "</figcaption>", "</figure>", "</footer>", "</header>", "</hgroup>", "</listing>", "</main>", "</menu>", "</nav>", "</ol>", "</pre>", "</section>", "</summary>", "</ul>") => (block: if not parser.hasElementInScope(token.tagtype): parse_error ELEMENT_NOT_IN_SCOPE else: parser.generateImpliedEndTags() parse_error_if_mismatch token.tagtype parser.popElementsIncl(token.tagtype) ) "</form>" => (block: if not parser.hasElement(TAG_TEMPLATE): let form = parser.form parser.form = none(Handle) if form.isNone or not parser.hasElementInScope(parser.getTagType(form.get)): parse_error ELEMENT_NOT_IN_SCOPE return let node = form.get parser.generateImpliedEndTags() if parser.currentNode != node: parse_error ELEMENT_NOT_CURRENT_NODE parser.openElements.delete(parser.openElements.find(node)) else: if not parser.hasElementInScope(TAG_FORM): parse_error ELEMENT_NOT_IN_SCOPE else: parser.generateImpliedEndTags() parse_error_if_mismatch TAG_FORM parser.popElementsIncl(TAG_FORM) ) "</p>" => (block: if not parser.hasElementInButtonScope(TAG_P): parse_error ELEMENT_NOT_IN_SCOPE discard parser.insertHTMLElement(Token(t: START_TAG, tagtype: TAG_P)) parser.closeP() ) "</li>" => (block: if not parser.hasElementInListItemScope(TAG_LI): parse_error ELEMENT_NOT_IN_SCOPE else: parser.generateImpliedEndTags(TAG_LI) parse_error_if_mismatch TAG_LI parser.popElementsIncl(TAG_LI) ) ("</dd>", "</dt>") => (block: if not parser.hasElementInScope(token.tagtype): parse_error ELEMENT_NOT_IN_SCOPE else: parser.generateImpliedEndTags(token.tagtype) parse_error_if_mismatch token.tagtype parser.popElementsIncl(token.tagtype) ) ("</h1>", "</h2>", "</h3>", "</h4>", "</h5>", "</h6>") => (block: if not parser.hasElementInScope(HTagTypes): parse_error ELEMENT_NOT_IN_SCOPE else: parser.generateImpliedEndTags() parse_error_if_mismatch token.tagtype parser.popElementsIncl(HTagTypes) ) "</sarcasm>" => (block: #*deep breath* anything_else ) "<a>" => (block: var anchor: Option[Handle] for i in countdown(parser.activeFormatting.high, 0): let format = parser.activeFormatting[i] if format[0] == nil: break if parser.getTagType(format[0]) == TAG_A: anchor = some(format[0]) break if anchor.isSome: parse_error NESTED_TAGS if parser.adoptionAgencyAlgorithm(token): any_other_end_tag return for i in 0..parser.activeFormatting.high: if parser.activeFormatting[i][0] == anchor.get: parser.activeFormatting.delete(i) break for i in 0..parser.openElements.high: if parser.openElements[i] == anchor.get: parser.openElements.delete(i) break parser.reconstructActiveFormatting() let element = parser.insertHTMLElement(token) parser.pushOntoActiveFormatting(element, token) ) ("<b>", "<big>", "<code>", "<em>", "<font>", "<i>", "<s>", "<small>", "<strike>", "<strong>", "<tt>", "<u>") => (block: parser.reconstructActiveFormatting() let element = parser.insertHTMLElement(token) parser.pushOntoActiveFormatting(element, token) ) "<nobr>" => (block: parser.reconstructActiveFormatting() if parser.hasElementInScope(TAG_NOBR): parse_error NESTED_TAGS if parser.adoptionAgencyAlgorithm(token): any_other_end_tag return parser.reconstructActiveFormatting() let element = parser.insertHTMLElement(token) parser.pushOntoActiveFormatting(element, token) ) ("</a>", "</b>", "</big>", "</code>", "</em>", "</font>", "</i>", "</nobr>", "</s>", "</small>", "</strike>", "</strong>", "</tt>", "</u>") => (block: if parser.adoptionAgencyAlgorithm(token): any_other_end_tag return ) ("<applet>", "<marquee>", "<object>") => (block: parser.reconstructActiveFormatting() discard parser.insertHTMLElement(token) parser.activeFormatting.add((nil, nil)) parser.framesetOk = false ) ("</applet>", "</marquee>", "</object>") => (block: if not parser.hasElementInScope(token.tagtype): parse_error ELEMENT_NOT_IN_SCOPE else: parser.generateImpliedEndTags() parse_error_if_mismatch token.tagtype while parser.getTagType(parser.popElement()) != token.tagtype: discard parser.clearActiveFormattingTillMarker() ) "<table>" => (block: if parser.quirksMode != QUIRKS: if parser.hasElementInButtonScope(TAG_P): parser.closeP() discard parser.insertHTMLElement(token) parser.framesetOk = false parser.insertionMode = IN_TABLE ) "</br>" => (block: parse_error UNEXPECTED_END_TAG reprocess Token(t: START_TAG, tagtype: TAG_BR) ) ("<area>", "<br>", "<embed>", "<img>", "<keygen>", "<wbr>") => (block: parser.reconstructActiveFormatting() discard parser.insertHTMLElement(token) pop_current_node parser.framesetOk = false ) "<input>" => (block: parser.reconstructActiveFormatting() discard parser.insertHTMLElement(token) pop_current_node if not token.attrs.getOrDefault("type").equalsIgnoreCase("hidden"): parser.framesetOk = false ) ("<param>", "<source>", "<track>") => (block: discard parser.insertHTMLElement(token) pop_current_node ) "<hr>" => (block: if parser.hasElementInButtonScope(TAG_P): parser.closeP() discard parser.insertHTMLElement(token) pop_current_node parser.framesetOk = false ) "<image>" => (block: #TODO ew let token = Token(t: START_TAG, tagtype: TAG_IMG, tagname: "img", selfclosing: token.selfclosing, attrs: token.attrs) reprocess token ) "<textarea>" => (block: discard parser.insertHTMLElement(token) parser.ignoreLF = true parser.tokenizer.state = RCDATA parser.oldInsertionMode = parser.insertionMode parser.framesetOk = false parser.insertionMode = TEXT ) "<xmp>" => (block: if parser.hasElementInButtonScope(TAG_P): parser.closeP() parser.reconstructActiveFormatting() parser.framesetOk = false parser.genericRawtextElementParsingAlgorithm(token) ) "<iframe>" => (block: parser.framesetOk = false parser.genericRawtextElementParsingAlgorithm(token) ) "<noembed>" => (block: parser.genericRawtextElementParsingAlgorithm(token) ) "<noscript>" => (block: if parser.opts.scripting: parser.genericRawtextElementParsingAlgorithm(token) else: any_other_start_tag ) "<select>" => (block: parser.reconstructActiveFormatting() discard parser.insertHTMLElement(token) parser.framesetOk = false if parser.insertionMode in {IN_TABLE, IN_CAPTION, IN_TABLE_BODY, IN_CELL}: parser.insertionMode = IN_SELECT_IN_TABLE else: parser.insertionMode = IN_SELECT ) ("<optgroup>", "<option>") => (block: if parser.getTagType(parser.currentNode) == TAG_OPTION: pop_current_node parser.reconstructActiveFormatting() discard parser.insertHTMLElement(token) ) ("<rb>", "<rtc>") => (block: if parser.hasElementInScope(TAG_RUBY): parser.generateImpliedEndTags() parse_error_if_mismatch TAG_RUBY discard parser.insertHTMLElement(token) ) ("<rp>", "<rt>") => (block: if parser.hasElementInScope(TAG_RUBY): parser.generateImpliedEndTags(TAG_RTC) parse_error_if_mismatch {TAG_RUBY, TAG_RTC} discard parser.insertHTMLElement(token) ) #NOTE <math> (not implemented) #TODO <svg> (SVG) ("<caption>", "<col>", "<colgroup>", "<frame>", "<head>", "<tbody>", "<td>", "<tfoot>", "<th>", "<thead>", "<tr>") => (block: parse_error UNEXPECTED_START_TAG ) TokenType.START_TAG => (block: any_other_start_tag) TokenType.END_TAG => (block: any_other_end_tag) of TEXT: match token: TokenType.CHARACTER_ASCII => (block: assert token.c != '\0' parser.insertCharacter(token.c) ) TokenType.CHARACTER => (block: parser.insertCharacter(token.r) ) TokenType.EOF => (block: parse_error UNEXPECTED_EOF if parser.getTagType(parser.currentNode) == TAG_SCRIPT: parser.setScriptAlreadyStarted(parser.currentNode) pop_current_node parser.insertionMode = parser.oldInsertionMode reprocess token ) "</script>" => (block: #TODO microtask (?) pop_current_node parser.insertionMode = parser.oldInsertionMode ) TokenType.END_TAG => (block: pop_current_node parser.insertionMode = parser.oldInsertionMode ) of IN_TABLE: template clear_the_stack_back_to_a_table_context() = while parser.getTagType(parser.currentNode) notin {TAG_TABLE, TAG_TEMPLATE, TAG_HTML}: pop_current_node match token: (TokenType.CHARACTER_ASCII, TokenType.CHARACTER) => (block: const CanHaveText = { TAG_TABLE, TAG_TBODY, TAG_TFOOT, TAG_THEAD, TAG_TR } if parser.getTagType(parser.currentNode) in CanHaveText: parser.pendingTableChars = "" parser.pendingTableCharsWhitespace = true parser.oldInsertionMode = parser.insertionMode parser.insertionMode = IN_TABLE_TEXT reprocess token else: # anything else parse_error INVALID_TEXT_PARENT parser.fosterParenting = true parser.processInHTMLContent(token, IN_BODY) parser.fosterParenting = false ) TokenType.COMMENT => (block: parser.insertComment(token)) TokenType.DOCTYPE => (block: parse_error UNEXPECTED_DOCTYPE) "<caption>" => (block: clear_the_stack_back_to_a_table_context parser.activeFormatting.add((nil, nil)) discard parser.insertHTMLElement(token) parser.insertionMode = IN_CAPTION ) "<colgroup>" => (block: clear_the_stack_back_to_a_table_context discard parser.insertHTMLElement(Token(t: START_TAG, tagtype: TAG_COLGROUP)) parser.insertionMode = IN_COLUMN_GROUP ) ("<tbody>", "<tfoot>", "<thead>") => (block: clear_the_stack_back_to_a_table_context discard parser.insertHTMLElement(token) parser.insertionMode = IN_TABLE_BODY ) ("<td>", "<th>", "<tr>") => (block: clear_the_stack_back_to_a_table_context discard parser.insertHTMLElement(Token(t: START_TAG, tagtype: TAG_TBODY)) parser.insertionMode = IN_TABLE_BODY reprocess token ) "<table>" => (block: parse_error NESTED_TAGS if not parser.hasElementInScope(TAG_TABLE): discard else: while parser.getTagType(parser.popElement()) != TAG_TABLE: discard parser.resetInsertionMode() reprocess token ) "</table>" => (block: if not parser.hasElementInScope(TAG_TABLE): parse_error ELEMENT_NOT_IN_SCOPE else: while parser.getTagType(parser.popElement()) != TAG_TABLE: discard parser.resetInsertionMode() ) ("</body>", "</caption>", "</col>", "</colgroup>", "</html>", "</tbody>", "</td>", "</tfoot>", "</th>", "</thead>", "</tr>") => (block: parse_error UNEXPECTED_END_TAG ) ("<style>", "<script>", "<template>", "</template>") => (block: parser.processInHTMLContent(token, IN_HEAD) ) "<input>" => (block: parse_error UNEXPECTED_START_TAG if not token.attrs.getOrDefault("type").equalsIgnoreCase("hidden"): # anything else parser.fosterParenting = true parser.processInHTMLContent(token, IN_BODY) parser.fosterParenting = false else: discard parser.insertHTMLElement(token) pop_current_node ) "<form>" => (block: parse_error UNEXPECTED_START_TAG if parser.form.isSome or parser.hasElement(TAG_TEMPLATE): discard else: parser.form = some(parser.insertHTMLElement(token)) pop_current_node ) TokenType.EOF => (block: parser.processInHTMLContent(token, IN_BODY) ) _ => (block: parse_error UNEXPECTED_START_TAG parser.fosterParenting = true parser.processInHTMLContent(token, IN_BODY) parser.fosterParenting = false ) of IN_TABLE_TEXT: match token: '\0' => (block: parse_error UNEXPECTED_NULL) TokenType.CHARACTER_ASCII => (block: if token.c notin AsciiWhitespace: parser.pendingTableCharsWhitespace = false parser.pendingTableChars &= token.c ) TokenType.CHARACTER => (block: parser.pendingTableChars &= $token.r parser.pendingTableCharsWhitespace = false ) _ => (block: if not parser.pendingTableCharsWhitespace: # I *think* this is effectively the same thing the specification # wants... parse_error NON_SPACE_TABLE_TEXT parser.fosterParenting = true parser.reconstructActiveFormatting() parser.insertCharacter(parser.pendingTableChars) parser.framesetOk = false parser.fosterParenting = false else: parser.insertCharacter(parser.pendingTableChars) parser.insertionMode = parser.oldInsertionMode reprocess token ) of IN_CAPTION: match token: "</caption>" => (block: if not parser.hasElementInTableScope(TAG_CAPTION): parse_error ELEMENT_NOT_IN_SCOPE else: parser.generateImpliedEndTags() parse_error_if_mismatch TAG_CAPTION parser.popElementsIncl(TAG_CAPTION) parser.clearActiveFormattingTillMarker() parser.insertionMode = IN_TABLE ) ("<caption>", "<col>", "<colgroup>", "<tbody>", "<td>", "<tfoot>", "<th>", "<thead>", "<tr>", "</table>") => (block: if not parser.hasElementInTableScope(TAG_CAPTION): parse_error ELEMENT_NOT_IN_SCOPE else: parser.generateImpliedEndTags() parse_error_if_mismatch TAG_CAPTION parser.clearActiveFormattingTillMarker() parser.insertionMode = IN_TABLE reprocess token ) ("</body>", "</col>", "</colgroup>", "</html>", "</tbody>", "</td>", "</tfoot>", "</th>", "</thead>", "</tr>") => (block: parse_error UNEXPECTED_END_TAG ) _ => (block: parser.processInHTMLContent(token, IN_BODY)) of IN_COLUMN_GROUP: match token: AsciiWhitespace => (block: parser.insertCharacter(token.c)) TokenType.COMMENT => (block: parser.insertComment(token)) TokenType.DOCTYPE => (block: parse_error UNEXPECTED_DOCTYPE) "<html>" => (block: parser.processInHTMLContent(token, IN_BODY)) "<col>" => (block: discard parser.insertHTMLElement(token) pop_current_node ) "</colgroup>" => (block: if parser.getTagType(parser.currentNode) != TAG_COLGROUP: parse_error MISMATCHED_TAGS else: pop_current_node parser.insertionMode = IN_TABLE ) "</col>" => (block: parse_error UNEXPECTED_END_TAG) ("<template>", "</template>") => (block: parser.processInHTMLContent(token, IN_HEAD) ) TokenType.EOF => (block: parser.processInHTMLContent(token, IN_BODY)) _ => (block: if parser.getTagType(parser.currentNode) != TAG_COLGROUP: parse_error MISMATCHED_TAGS else: pop_current_node parser.insertionMode = IN_TABLE reprocess token ) of IN_TABLE_BODY: template clear_the_stack_back_to_a_table_body_context() = while parser.getTagType(parser.currentNode) notin {TAG_TBODY, TAG_TFOOT, TAG_THEAD, TAG_TEMPLATE, TAG_HTML}: pop_current_node match token: "<tr>" => (block: clear_the_stack_back_to_a_table_body_context discard parser.insertHTMLElement(token) parser.insertionMode = IN_ROW ) ("<th>", "<td>") => (block: parse_error UNEXPECTED_START_TAG clear_the_stack_back_to_a_table_body_context discard parser.insertHTMLElement(Token(t: START_TAG, tagtype: TAG_TR)) parser.insertionMode = IN_ROW reprocess token ) ("</tbody>", "</tfoot>", "</thead>") => (block: if not parser.hasElementInTableScope(token.tagtype): parse_error ELEMENT_NOT_IN_SCOPE else: clear_the_stack_back_to_a_table_body_context pop_current_node parser.insertionMode = IN_TABLE ) ("<caption>", "<col>", "<colgroup>", "<tbody>", "<tfoot>", "<thead>", "</table>") => (block: if not parser.hasElementInTableScope({TAG_TBODY, TAG_THEAD, TAG_TFOOT}): parse_error ELEMENT_NOT_IN_SCOPE else: clear_the_stack_back_to_a_table_body_context pop_current_node parser.insertionMode = IN_TABLE reprocess token ) ("</body>", "</caption>", "</col>", "</colgroup>", "</html>", "</td>", "</th>", "</tr>") => (block: parse_error ELEMENT_NOT_IN_SCOPE ) _ => (block: parser.processInHTMLContent(token, IN_TABLE)) of IN_ROW: template clear_the_stack_back_to_a_table_row_context() = while parser.getTagType(parser.currentNode) notin {TAG_TR, TAG_TEMPLATE, TAG_HTML}: pop_current_node match token: ("<th>", "<td>") => (block: clear_the_stack_back_to_a_table_row_context discard parser.insertHTMLElement(token) parser.insertionMode = IN_CELL parser.activeFormatting.add((nil, nil)) ) "</tr>" => (block: if not parser.hasElementInTableScope(TAG_TR): parse_error ELEMENT_NOT_IN_SCOPE else: clear_the_stack_back_to_a_table_row_context pop_current_node parser.insertionMode = IN_TABLE_BODY ) ("<caption>", "<col>", "<colgroup>", "<tbody>", "<tfoot>", "<thead>", "<tr>", "</table>") => (block: if not parser.hasElementInTableScope(TAG_TR): parse_error ELEMENT_NOT_IN_SCOPE else: clear_the_stack_back_to_a_table_row_context pop_current_node parser.insertionMode = IN_TABLE_BODY reprocess token ) ("</tbody>", "</tfoot>", "</thead>") => (block: if not parser.hasElementInTableScope(token.tagtype): parse_error ELEMENT_NOT_IN_SCOPE elif not parser.hasElementInTableScope(TAG_TR): discard else: clear_the_stack_back_to_a_table_row_context pop_current_node parser.insertionMode = IN_BODY reprocess token ) ("</body>", "</caption>", "</col>", "</colgroup>", "</html>", "</td>", "</th>") => (block: parse_error UNEXPECTED_END_TAG) _ => (block: parser.processInHTMLContent(token, IN_TABLE)) of IN_CELL: template close_cell() = parser.generateImpliedEndTags() parse_error_if_mismatch {TAG_TD, TAG_TH} parser.popElementsIncl({TAG_TD, TAG_TH}) parser.clearActiveFormattingTillMarker() parser.insertionMode = IN_ROW match token: ("</td>", "</th>") => (block: if not parser.hasElementInTableScope(token.tagtype): parse_error ELEMENT_NOT_IN_SCOPE else: parser.generateImpliedEndTags() parse_error_if_mismatch token.tagtype parser.popElementsIncl(token.tagtype) parser.clearActiveFormattingTillMarker() parser.insertionMode = IN_ROW ) ("<caption>", "<col>", "<colgroup>", "<tbody>", "<td>", "<tfoot>", "<thead>", "<tr>") => (block: if not parser.hasElementInTableScope({TAG_TD, TAG_TH}): parse_error ELEMENT_NOT_IN_SCOPE else: close_cell reprocess token ) ("</body>", "</caption>", "</col>", "</colgroup>", "</html>") => (block: parse_error UNEXPECTED_END_TAG ) ("</table>", "</tbody>", "</tfoot>", "</thead>", "</tr>") => (block: if not parser.hasElementInTableScope(token.tagtype): parse_error ELEMENT_NOT_IN_SCOPE else: close_cell reprocess token ) _ => (block: parser.processInHTMLContent(token, IN_BODY)) of IN_SELECT: match token: '\0' => (block: parse_error UNEXPECTED_NULL) TokenType.CHARACTER_ASCII => (block: parser.insertCharacter(token.c)) TokenType.CHARACTER => (block: parser.insertCharacter(token.r)) TokenType.COMMENT => (block: parser.insertComment(token)) TokenType.DOCTYPE => (block: parse_error UNEXPECTED_DOCTYPE) "<html>" => (block: parser.processInHTMLContent(token, IN_BODY)) "<option>" => (block: if parser.getTagType(parser.currentNode) == TAG_OPTION: pop_current_node discard parser.insertHTMLElement(token) ) "<optgroup>" => (block: if parser.getTagType(parser.currentNode) == TAG_OPTION: pop_current_node if parser.getTagType(parser.currentNode) == TAG_OPTGROUP: pop_current_node discard parser.insertHTMLElement(token) ) "</optgroup>" => (block: if parser.getTagType(parser.currentNode) == TAG_OPTION: if parser.openElements.len > 1 and parser.getTagType(parser.openElements[^2]) == TAG_OPTGROUP: pop_current_node if parser.getTagType(parser.currentNode) == TAG_OPTGROUP: pop_current_node else: parse_error MISMATCHED_TAGS ) "</option>" => (block: if parser.getTagType(parser.currentNode) == TAG_OPTION: pop_current_node else: parse_error MISMATCHED_TAGS ) "</select>" => (block: if not parser.hasElementInSelectScope(TAG_SELECT): parse_error ELEMENT_NOT_IN_SCOPE else: while parser.getTagType(parser.popElement()) != TAG_SELECT: discard parser.resetInsertionMode() ) "<select>" => (block: parse_error NESTED_TAGS if parser.hasElementInSelectScope(TAG_SELECT): while parser.getTagType(parser.popElement()) != TAG_SELECT: discard parser.resetInsertionMode() ) ("<input>", "<keygen>", "<textarea>") => (block: parse_error UNEXPECTED_START_TAG if not parser.hasElementInSelectScope(TAG_SELECT): discard else: while parser.getTagType(parser.popElement()) != TAG_SELECT: discard parser.resetInsertionMode() reprocess token ) ("<script>", "<template>", "</template>") => (block: parser.processInHTMLContent(token, IN_HEAD)) TokenType.EOF => (block: parser.processInHTMLContent(token, IN_BODY)) TokenType.START_TAG => (block: parse_error UNEXPECTED_START_TAG) TokenType.END_TAG => (block: parse_error UNEXPECTED_END_TAG) of IN_SELECT_IN_TABLE: match token: ("<caption>", "<table>", "<tbody>", "<tfoot>", "<thead>", "<tr>", "<td>", "<th>") => (block: parse_error UNEXPECTED_START_TAG while parser.getTagType(parser.popElement()) != TAG_SELECT: discard parser.resetInsertionMode() reprocess token ) ("</caption>", "</table>", "</tbody>", "</tfoot>", "</thead>", "</tr>", "</td>", "</th>") => (block: parse_error UNEXPECTED_END_TAG if not parser.hasElementInTableScope(token.tagtype): discard else: parser.popElementsIncl(TAG_SELECT) parser.resetInsertionMode() reprocess token ) _ => (block: parser.processInHTMLContent(token, IN_SELECT)) of IN_TEMPLATE: match token: (TokenType.CHARACTER_ASCII, TokenType.CHARACTER, TokenType.DOCTYPE) => (block: parser.processInHTMLContent(token, IN_BODY) ) ("<base>", "<basefont>", "<bgsound>", "<link>", "<meta>", "<noframes>", "<script>", "<style>", "<template>", "<title>", "</template>") => (block: parser.processInHTMLContent(token, IN_HEAD) ) ("<caption>", "<colgroup>", "<tbody>", "<tfoot>", "<thead>") => (block: discard parser.templateModes.pop() parser.templateModes.add(IN_TABLE) parser.insertionMode = IN_TABLE reprocess token ) "<col>" => (block: discard parser.templateModes.pop() parser.templateModes.add(IN_COLUMN_GROUP) parser.insertionMode = IN_COLUMN_GROUP reprocess token ) "<tr>" => (block: discard parser.templateModes.pop() parser.templateModes.add(IN_TABLE_BODY) parser.insertionMode = IN_TABLE_BODY reprocess token ) ("<td>", "<th>") => (block: discard parser.templateModes.pop() parser.templateModes.add(IN_ROW) parser.insertionMode = IN_ROW reprocess token ) TokenType.START_TAG => (block: discard parser.templateModes.pop() parser.templateModes.add(IN_BODY) parser.insertionMode = IN_BODY reprocess token ) TokenType.END_TAG => (block: parse_error UNEXPECTED_END_TAG) TokenType.EOF => (block: if not parser.hasElement(TAG_TEMPLATE): discard # stop else: parse_error UNEXPECTED_EOF parser.popElementsIncl(TAG_TEMPLATE) parser.clearActiveFormattingTillMarker() discard parser.templateModes.pop() parser.resetInsertionMode() reprocess token ) of AFTER_BODY: match token: AsciiWhitespace => (block: parser.processInHTMLContent(token, IN_BODY)) TokenType.COMMENT => (block: parser.insertComment(token, last_child_of(parser.openElements[0]))) TokenType.DOCTYPE => (block: parse_error UNEXPECTED_DOCTYPE) "<html>" => (block: parser.processInHTMLContent(token, IN_BODY)) "</html>" => (block: if parser.fragment: parse_error UNEXPECTED_END_TAG else: parser.insertionMode = AFTER_AFTER_BODY ) TokenType.EOF => (block: discard) # stop _ => (block: parse_error UNEXPECTED_AFTER_BODY_TOKEN parser.insertionMode = IN_BODY reprocess token ) of IN_FRAMESET: match token: AsciiWhitespace => (block: parser.insertCharacter(token.c)) TokenType.COMMENT => (block: parser.insertComment(token)) TokenType.DOCTYPE => (block: parse_error UNEXPECTED_DOCTYPE) "<html>" => (block: parser.processInHTMLContent(token, IN_BODY)) "<frameset>" => (block: if parser.getTagType(parser.currentNode) == TAG_HTML: parse_error UNEXPECTED_START_TAG else: pop_current_node if not parser.fragment and parser.getTagType(parser.currentNode) != TAG_FRAMESET: parser.insertionMode = AFTER_FRAMESET ) "<frame>" => (block: discard parser.insertHTMLElement(token) pop_current_node ) "<noframes>" => (block: parser.processInHTMLContent(token, IN_HEAD)) TokenType.EOF => (block: if parser.getTagType(parser.currentNode) != TAG_HTML: parse_error UNEXPECTED_EOF # stop ) _ => (block: parser.parseErrorByTokenType(token.t)) of AFTER_FRAMESET: match token: AsciiWhitespace => (block: parser.insertCharacter(token.c)) TokenType.COMMENT => (block: parser.insertComment(token)) TokenType.DOCTYPE => (block: parse_error UNEXPECTED_DOCTYPE) "<html>" => (block: parser.processInHTMLContent(token, IN_BODY)) "</html>" => (block: parser.insertionMode = AFTER_AFTER_FRAMESET) "<noframes>" => (block: parser.processInHTMLContent(token, IN_HEAD)) TokenType.EOF => (block: discard) # stop _ => (block: parser.parseErrorByTokenType(token.t)) of AFTER_AFTER_BODY: match token: TokenType.COMMENT => (block: parser.insertComment(token, last_child_of(parser.document)) ) (TokenType.DOCTYPE, AsciiWhitespace, "<html>") => (block: parser.processInHTMLContent(token, IN_BODY) ) TokenType.EOF => (block: discard) # stop _ => (block: parser.parseErrorByTokenType(token.t) parser.insertionMode = IN_BODY reprocess token ) of AFTER_AFTER_FRAMESET: match token: TokenType.COMMENT => (block: parser.insertComment(token, last_child_of(parser.document)) ) (TokenType.DOCTYPE, AsciiWhitespace, "<html>") => (block: parser.processInHTMLContent(token, IN_BODY) ) TokenType.EOF => (block: discard) # stop "<noframes>" => (block: parser.processInHTMLContent(token, IN_HEAD)) _ => (block: parser.parseErrorByTokenType(token.t)) const CaseTable = { "altglyph": "altGlyph", "altglyphdef": "altGlyphDef", "altglyphitem": "altGlyphItem", "animatecolor": "animateColor", "animatemotion": "animateMotion", "animatetransform": "animateTransform", "clippath": "clipPath", "feblend": "feBlend", "fecolormatrix": "feColorMatrix", "fecomponenttransfer": "feComponentTransfer", "fecomposite": "feComposite", "feconvolvematrix": "feConvolveMatrix", "fediffuselighting": "feDiffuseLighting", "fedisplacementmap": "feDisplacementMap", "fedistantlight": "feDistantLight", "fedropshadow": "feDropShadow", "feflood": "feFlood", "fefunca": "feFuncA", "fefuncb": "feFuncB", "fefuncg": "feFuncG", "fefuncr": "feFuncR", "fegaussianblur": "feGaussianBlur", "feimage": "feImage", "femerge": "feMerge", "femergenode": "feMergeNode", "femorphology": "feMorphology", "feoffset": "feOffset", "fepointlight": "fePointLight", "fespecularlighting": "feSpecularLighting", "fespotlight": "feSpotLight", "fetile": "feTile", "feturbulence": "feTurbulence", "foreignobject": "foreignObject", "glyphref": "glyphRef", "lineargradient": "linearGradient", "radialgradient": "radialGradient", "textpath": "textPath", }.toTable() proc processInForeignContent(parser: var HTML5Parser, token: Token) = macro `=>`(v: typed, body: untyped): untyped = quote do: discard (`v`, proc() = `body`) template script_end_tag() = pop_current_node #TODO document.write (?) #TODO SVG template parse_error(e: ParseError) = parser.parseError(e) template any_other_end_tag() = if parser.getLocalName(parser.currentNode) != token.tagname: parse_error UNEXPECTED_END_TAG for i in countdown(parser.openElements.high, 1): let node = parser.openElements[i] if parser.getLocalName(parser.currentNode) == token.tagname: while parser.popElement() != node: discard break if parser.getNamespace(node) == Namespace.HTML: break parser.processInHTMLContent(token, parser.insertionMode) match token: '\0' => (block: parse_error UNEXPECTED_NULL parser.insertCharacter(Rune(0xFFFD)) ) AsciiWhitespace => (block: parser.insertCharacter(token.c)) TokenType.CHARACTER_ASCII => (block: parser.insertCharacter(token.c)) TokenType.CHARACTER => (block: parser.insertCharacter(token.r)) TokenType.DOCTYPE => (block: parse_error UNEXPECTED_DOCTYPE) ("<b>", "<big>", "<blockquote>", "<body>", "<br>", "<center>", "<code>", "<dd>", "<div>", "<dl>", "<dt>", "<em>", "<embed>", "<h1>", "<h2>", "<h3>", "<h4>", "<h5>", "<h6>", "<head>", "<hr>", "<i>", "<img>", "<li>", "<listing>", "<menu>", "<meta>", "<nobr>", "<ol>", "<p>", "<pre>", "<ruby>", "<s>", "<small>", "<span>", "<strong>", "<strike>", "<sub>", "<sup>", "<table>", "<tt>", "<u>", "<ul>", "<var>") => (block: parse_error UNEXPECTED_START_TAG #NOTE MathML not implemented while not parser.isHTMLIntegrationPoint(parser.currentNode) and parser.getNamespace(parser.currentNode) != Namespace.HTML: pop_current_node parser.processInHTMLContent(token, parser.insertionMode) ) TokenType.START_TAG => (block: #NOTE MathML not implemented let namespace = parser.getNamespace(parser.adjustedCurrentNode) if namespace == Namespace.SVG: if token.tagname in CaseTable: token.tagname = CaseTable[token.tagname] adjustSVGAttributes(token) #TODO adjust foreign attributes discard parser.insertForeignElement(token, namespace) if token.selfclosing and namespace == Namespace.SVG: script_end_tag else: pop_current_node ) "</script>" => (block: let namespace = parser.getNamespace(parser.currentNode) let localName = parser.getLocalName(parser.currentNode) if namespace == Namespace.SVG and localName == "script": #TODO SVG script_end_tag else: any_other_end_tag ) TokenType.END_TAG => (block: any_other_end_tag) proc constructTree[Handle](parser: var HTML5Parser[Handle]) = for token in parser.tokenizer.tokenize: if parser.ignoreLF: parser.ignoreLF = false if token.t == CHARACTER_ASCII and token.c == '\n': continue let isTokenHTML = token.t in {START_TAG, CHARACTER, CHARACTER_ASCII} if parser.openElements.len == 0 or parser.getNamespace(parser.adjustedCurrentNode) == Namespace.HTML or parser.isHTMLIntegrationPoint(parser.adjustedCurrentNode) and isTokenHTML or token.t == EOF: #NOTE MathML not implemented parser.processInHTMLContent(token, parser.insertionMode) else: parser.processInForeignContent(token) if parser.needsreinterpret: break proc finishParsing(parser: var HTML5Parser) = while parser.openElements.len > 0: pop_current_node if parser.dombuilder.finish != nil: parser.dombuilder.finish(parser.dombuilder) proc bomSniff(inputStream: Stream): Charset = # bom sniff const u8bom = char(0xEF) & char(0xBB) & char(0xBF) const bebom = char(0xFE) & char(0xFF) const lebom = char(0xFF) & char(0xFE) var bom = inputStream.readStr(2) if bom == bebom: return CHARSET_UTF_16_BE elif bom == lebom: return CHARSET_UTF_16_LE else: bom &= inputStream.readChar() if bom == u8bom: return CHARSET_UTF_8 else: inputStream.setPosition(0) # Any of these pointers being nil would later result in a crash. proc checkCallbacks(dombuilder: DOMBuilder) = doAssert dombuilder.getParentNode != nil doAssert dombuilder.getLocalName != nil doAssert dombuilder.createElement != nil doAssert dombuilder.createComment != nil doAssert dombuilder.createDocumentType != nil doAssert dombuilder.insertBefore != nil doAssert dombuilder.insertText != nil doAssert dombuilder.remove != nil proc parseHTML*[Handle](inputStream: Stream, dombuilder: DOMBuilder[Handle], opts: HTML5ParserOpts[Handle]) = ## Parse an HTML document, using the DOMBuilder object `dombuilder`, and ## parser options `opts`. dombuilder.checkCallbacks() var charsetStack: seq[Charset] for i in countdown(opts.charsets.high, 0): charsetStack.add(opts.charsets[i]) var canReinterpret = opts.canReinterpret var confidence: CharsetConfidence if canReinterpret: let scs = inputStream.bomSniff() if scs != CHARSET_UNKNOWN: charsetStack.add(scs) confidence = CONFIDENCE_CERTAIN canReinterpret = false if charsetStack.len == 0: charsetStack.add(DefaultCharset) # UTF-8 while true: let charset = charsetStack.pop() var parser = HTML5Parser[Handle]( dombuilder: dombuilder, confidence: confidence, charset: charset, opts: opts ) confidence = CONFIDENCE_TENTATIVE # used in the next iteration if not canReinterpret: parser.confidence = CONFIDENCE_CERTAIN let em = if charsetStack.len == 0 or not canReinterpret: DECODER_ERROR_MODE_REPLACEMENT else: DECODER_ERROR_MODE_FATAL let decoder = newDecoderStream(inputStream, parser.charset, errormode = em) proc x(e: ParseError) = parser.parseError(e) let onParseError = if parser.hasParseError(): x else: nil parser.tokenizer = newTokenizer(decoder, onParseError) parser.constructTree() if parser.needsreinterpret and canReinterpret: inputStream.setPosition(0) charsetStack.add(parser.charset) canReinterpret = false continue if decoder.failed and canReinterpret: inputStream.setPosition(0) continue parser.finishParsing() break

", "

") => (block: anything_else) # (TokenType.START_TAG, TokenType.END_TAG) => (block: assert false, "invalid") # _ => (block: echo "anything else") # # (effectively) generates this: # # block inside_not_else: # case token.t # of TokenType.COMMENT: # echo "comment" # break inside_not_else # of TokenType.START_TAG: # case token.tagtype # of {TAG_P, TAG_A}: # echo "p, a or closing div" # break inside_not_else # of TAG_DIV: discard # else: # assert false # break inside_not_else # of TokenType.END_TAG: # case token.tagtype # of TAG_DIV: # echo "p, a or closing div" # break inside_not_else # of TAG_P: discard # else: # assert false # break inside_not_else # else: discard # echo "anything else" # # This duplicates any code that applies for several token types, except for the # else branch. macro match(token: Token, body: typed): untyped = type OfBranchStore = object ofBranches: seq[(seq[NimNode], NimNode)] defaultBranch: NimNode painted: bool # Stores 'of' branches var ofBranches: array[TokenType, OfBranchStore] # Stores 'else', 'elif' branches var defaultBranch: NimNode const tokenTypes = (func(): Table[string, TokenType] = for tt in TokenType: result[$tt] = tt)() for disc in body: let tup = disc[0] # access actual tuple let pattern = `tup`[0] let lambda = `tup`[1] var action = lambda.findChild(it.kind notin {nnkSym, nnkEmpty, nnkFormalParams}) if pattern.kind != nnkDiscardStmt and not (action.len == 2 and action[1].kind == nnkDiscardStmt and action[1][0] == newStrLitNode("anything_else")): action = quote do: `action` #eprint token #debug break inside_not_else var patterns = @[pattern] while patterns.len > 0: let pattern = patterns.pop() case pattern.kind of nnkSym: # simple symbols; we assume these are the enums ofBranches[tokenTypes[pattern.strVal]].defaultBranch = action ofBranches[tokenTypes[pattern.strVal]].painted = true of nnkCharLit: ofBranches[CHARACTER_ASCII].ofBranches.add((@[pattern], action)) ofBranches[CHARACTER_ASCII].painted = true of nnkCurly: case pattern[0].kind of nnkCharLit: ofBranches[CHARACTER_ASCII].ofBranches.add((@[pattern], action)) ofBranches[CHARACTER_ASCII].painted = true else: error "Unsupported curly of kind " & $pattern[0].kind of nnkStrLit: var tempTokenizer = newTokenizer(pattern.strVal) for token in tempTokenizer.tokenize: let tt = int(token.tagtype) case token.t of START_TAG, END_TAG: var found = false for i in 0..ofBranches[token.t].ofBranches.high: if ofBranches[token.t].ofBranches[i][1] == action: found = true ofBranches[token.t].ofBranches[i][0].add((quote do: TagType(`tt`))) ofBranches[token.t].painted = true break if not found: ofBranches[token.t].ofBranches.add((@[(quote do: TagType(`tt`))], action)) ofBranches[token.t].painted = true else: error pattern.strVal & ": Unsupported token " & $token & " of kind " & $token.t break of nnkDiscardStmt: defaultBranch = action of nnkTupleConstr: for child in pattern: patterns.add(child) else: error pattern.strVal & ": Unsupported pattern of kind " & $pattern.kind func tokenBranchOn(tok: TokenType): NimNode = case tok of START_TAG, END_TAG: return quote do: token.tagtype of CHARACTER: return quote do: token.r of CHARACTER_ASCII: return quote do: token.c else: error "Unsupported branching of token " & $tok template add_to_case(branch: typed) = if branch[0].len == 1: tokenCase.add(newNimNode(nnkOfBranch).add(branch[0][0]).add(branch[1])) else: var curly = newNimNode(nnkCurly) for node in branch[0]: curly.add(node) tokenCase.add(newNimNode(nnkOfBranch).add(curly).add(branch[1])) # Build case statements var mainCase = newNimNode(nnkCaseStmt).add(quote do: `token`.t) for tt in TokenType: let ofBranch = newNimNode(nnkOfBranch).add(quote do: TokenType(`tt`)) let tokenCase = newNimNode(nnkCaseStmt) if ofBranches[tt].defaultBranch != nil: if ofBranches[tt].ofBranches.len > 0: tokenCase.add(tokenBranchOn(tt)) for branch in ofBranches[tt].ofBranches: add_to_case branch tokenCase.add(newNimNode(nnkElse).add(ofBranches[tt].defaultBranch)) ofBranch.add(tokenCase) mainCase.add(ofBranch) else: ofBranch.add(ofBranches[tt].defaultBranch) mainCase.add(ofBranch) else: if ofBranches[tt].ofBranches.len > 0: tokenCase.add(tokenBranchOn(tt)) for branch in ofBranches[tt].ofBranches: add_to_case branch ofBranch.add(tokenCase) tokenCase.add(newNimNode(nnkElse).add(quote do: discard)) mainCase.add(ofBranch) else: discard for t in TokenType: if not ofBranches[t].painted: mainCase.add(newNimNode(nnkElse).add(quote do: discard)) break var stmts = newStmtList().add(mainCase) for stmt in defaultBranch: stmts.add(stmt) result = newBlockStmt(ident("inside_not_else"), stmts) proc processInHTMLContent[Handle](parser: var HTML5Parser[Handle], token: Token, insertionMode: InsertionMode) = template pop_all_nodes = while parser.openElements.len > 1: pop_current_node template anything_else = discard "anything_else" macro `=>`(v: typed, body: untyped): untyped = quote do: discard (`v`, proc() = `body`) template _ = discard template reprocess(tok: Token) = parser.processInHTMLContent(tok, parser.insertionMode) template parse_error(e: ParseError) = parser.parseError(e) template parse_error_if_mismatch(tagtype: TagType) = if parser.hasParseError(): if parser.getTagType(parser.currentNode) != TAG_DD: parse_error MISMATCHED_TAGS template parse_error_if_mismatch(tagtypes: set[TagType]) = if parser.hasParseError(): if parser.getTagType(parser.currentNode) notin tagtypes: parse_error MISMATCHED_TAGS case insertionMode of INITIAL: match token: AsciiWhitespace => (block: discard) TokenType.COMMENT => (block: parser.insertComment(token, last_child_of(parser.document)) ) TokenType.DOCTYPE => (block: if token.name.isNone or token.name.get != "html" or token.pubid.isSome or (token.sysid.isSome and token.sysid.get != "about:legacy-compat"): parse_error INVALID_DOCTYPE let doctype = parser.createDocumentType(token.name.get(""), token.pubid.get(""), token.sysid.get("")) parser.append(parser.document, doctype) if not parser.opts.isIframeSrcdoc: if quirksConditions(token): parser.setQuirksMode(QUIRKS) elif limitedQuirksConditions(token): parser.setQuirksMode(LIMITED_QUIRKS) parser.insertionMode = BEFORE_HTML ) _ => (block: if not parser.opts.isIframeSrcdoc: parse_error UNEXPECTED_INITIAL_TOKEN parser.setQuirksMode(QUIRKS) parser.insertionMode = BEFORE_HTML reprocess token ) of BEFORE_HTML: match token: TokenType.DOCTYPE => (block: parse_error UNEXPECTED_DOCTYPE) TokenType.COMMENT => (block: parser.insertComment(token, last_child_of(parser.document)) ) AsciiWhitespace => (block: discard) "" => (block: let element = parser.createElement(token, Namespace.HTML, parser.document) parser.append(parser.document, element) parser.pushElement(element) parser.insertionMode = BEFORE_HEAD ) ("", "", "", "
") => (block: anything_else) TokenType.END_TAG => (block: parse_error UNEXPECTED_END_TAG) _ => (block: let element = parser.createElement(TAG_HTML, Namespace.HTML) parser.append(parser.document, element) parser.pushElement(element) parser.insertionMode = BEFORE_HEAD reprocess token ) of BEFORE_HEAD: match token: AsciiWhitespace => (block: discard) TokenType.COMMENT => (block: parser.insertComment(token)) TokenType.DOCTYPE => (block: parse_error UNEXPECTED_DOCTYPE) "" => (block: parser.processInHTMLContent(token, IN_BODY)) "" => (block: parser.head = some(parser.insertHTMLElement(token)) parser.insertionMode = IN_HEAD ) ("", "", "", "
") => (block: anything_else) TokenType.END_TAG => (block: parse_error UNEXPECTED_END_TAG) _ => (block: let head = Token(t: START_TAG, tagtype: TAG_HEAD) parser.head = some(parser.insertHTMLElement(head)) parser.insertionMode = IN_HEAD reprocess token ) of IN_HEAD: match token: AsciiWhitespace => (block: discard) TokenType.COMMENT => (block: parser.insertComment(token)) TokenType.DOCTYPE => (block: parse_error UNEXPECTED_DOCTYPE) "" => (block: parser.processInHTMLContent(token, IN_BODY)) ("", "", "", "") => (block: discard parser.insertHTMLElement(token) pop_current_node ) "" => (block: discard parser.insertHTMLElement(token) pop_current_node if parser.confidence == CONFIDENCE_TENTATIVE: let cs = getCharset(token.attrs.getOrDefault("charset", "")) if cs != CHARSET_UNKNOWN: parser.changeEncoding(cs) elif "http-equiv" in token.attrs: if token.attrs["http-equiv"].equalsIgnoreCase("Content-Type") and "content" in token.attrs: let cs = extractEncFromMeta(token.attrs["content"]) if cs != CHARSET_UNKNOWN: parser.changeEncoding(cs) ) "" => (block: parser.genericRCDATAElementParsingAlgorithm(token)) "<noscript>" => (block: if not parser.opts.scripting: discard parser.insertHTMLElement(token) parser.insertionMode = IN_HEAD_NOSCRIPT else: parser.genericRawtextElementParsingAlgorithm(token) ) ("<noframes>", "<style>") => (block: parser.genericRawtextElementParsingAlgorithm(token)) "<script>" => (block: let location = parser.appropriatePlaceForInsert() let element = parser.createElement(token, Namespace.HTML, location.inside) #TODO document.write (?) parser.insert(location, element) parser.pushElement(element) parser.tokenizer.state = SCRIPT_DATA parser.oldInsertionMode = parser.insertionMode parser.insertionMode = TEXT ) "</head>" => (block: pop_current_node parser.insertionMode = AFTER_HEAD ) ("</body>", "</html>", "</br>") => (block: anything_else) "<template>" => (block: discard parser.insertHTMLElement(token) parser.activeFormatting.add((nil, nil)) parser.framesetok = false parser.insertionMode = IN_TEMPLATE parser.templateModes.add(IN_TEMPLATE) ) "</template>" => (block: if not parser.hasElement(TAG_TEMPLATE): parse_error ELEMENT_NOT_IN_OPEN_ELEMENTS else: parser.generateImpliedEndTagsThoroughly() if parser.getTagType(parser.currentNode) != TAG_TEMPLATE: parse_error MISMATCHED_TAGS parser.popElementsIncl(TAG_TEMPLATE) parser.clearActiveFormattingTillMarker() discard parser.templateModes.pop() parser.resetInsertionMode() ) ("<head>", TokenType.END_TAG) => (block: parse_error UNEXPECTED_END_TAG) _ => (block: pop_current_node parser.insertionMode = AFTER_HEAD reprocess token ) of IN_HEAD_NOSCRIPT: match token: TokenType.DOCTYPE => (block: parse_error UNEXPECTED_DOCTYPE) "<html>" => (block: parser.processInHTMLContent(token, IN_BODY)) "</noscript>" => (block: pop_current_node parser.insertionMode = IN_HEAD ) (AsciiWhitespace, TokenType.COMMENT, "<basefont>", "<bgsound>", "<link>", "<meta>", "<noframes>", "<style>") => (block: parser.processInHTMLContent(token, IN_HEAD)) "</br>" => (block: anything_else) ("<head>", "<noscript>") => (block: parse_error UNEXPECTED_START_TAG) TokenType.END_TAG => (block: parse_error UNEXPECTED_END_TAG) _ => (block: pop_current_node parser.insertionMode = IN_HEAD reprocess token ) of AFTER_HEAD: match token: AsciiWhitespace => (block: parser.insertCharacter(token.c)) TokenType.COMMENT => (block: parser.insertComment(token)) TokenType.DOCTYPE => (block: parse_error UNEXPECTED_DOCTYPE) "<html>" => (block: parser.processInHTMLContent(token, IN_BODY)) "<body>" => (block: discard parser.insertHTMLElement(token) parser.framesetok = false parser.insertionMode = IN_BODY ) "<frameset>" => (block: discard parser.insertHTMLElement(token) parser.insertionMode = IN_FRAMESET ) ("<base>", "<basefont>", "<bgsound>", "<link>", "<meta>", "<noframes>", "<script>", "<style>", "<template>", "<title>") => (block: parse_error UNEXPECTED_START_TAG parser.pushElement(parser.head.get) parser.processInHTMLContent(token, IN_HEAD) for i in countdown(parser.openElements.high, 0): if parser.openElements[i] == parser.head.get: parser.openElements.delete(i) ) "</template>" => (block: parser.processInHTMLContent(token, IN_HEAD)) ("</body>", "</html>", "</br>") => (block: anything_else) ("<head>") => (block: parse_error UNEXPECTED_START_TAG) (TokenType.END_TAG) => (block: parse_error UNEXPECTED_END_TAG) _ => (block: discard parser.insertHTMLElement(Token(t: START_TAG, tagtype: TAG_BODY)) parser.insertionMode = IN_BODY reprocess token ) of IN_BODY: template any_other_start_tag() = parser.reconstructActiveFormatting() discard parser.insertHTMLElement(token) template any_other_end_tag() = for i in countdown(parser.openElements.high, 0): let node = parser.openElements[i] if parser.tagNameEquals(node, token): parser.generateImpliedEndTags(token.tagtype) if node != parser.currentNode: parse_error ELEMENT_NOT_CURRENT_NODE while parser.popElement() != node: discard break elif parser.getTagType(node) in SpecialElements: parse_error UNEXPECTED_SPECIAL_ELEMENT return template parse_error_if_body_has_disallowed_open_elements = if parser.hasParseError(): const Disallowed = AllTagTypes - { TAG_DD, TAG_DT, TAG_LI, TAG_OPTGROUP, TAG_OPTION, TAG_P, TAG_RB, TAG_RP, TAG_RT, TAG_RTC, TAG_TBODY, TAG_TD, TAG_TFOOT, TAG_TH, TAG_THEAD, TAG_TR, TAG_BODY, TAG_HTML } if parser.hasElement(Disallowed): parse_error MISMATCHED_TAGS match token: '\0' => (block: parse_error UNEXPECTED_NULL) AsciiWhitespace => (block: parser.reconstructActiveFormatting() parser.insertCharacter(token.c) ) TokenType.CHARACTER_ASCII => (block: parser.reconstructActiveFormatting() parser.insertCharacter(token.c) parser.framesetOk = false ) TokenType.CHARACTER => (block: parser.reconstructActiveFormatting() parser.insertCharacter(token.r) parser.framesetOk = false ) TokenType.COMMENT => (block: parser.insertComment(token)) TokenType.DOCTYPE => (block: parse_error UNEXPECTED_DOCTYPE) "<html>" => (block: parse_error UNEXPECTED_START_TAG if parser.hasElement(TAG_TEMPLATE): discard else: parser.addAttrsIfMissing(parser.openElements[0], token.attrs) ) ("<base>", "<basefont>", "<bgsound>", "<link>", "<meta>", "<noframes>", "<script>", "<style>", "<template>", "<title>", "</template>") => (block: parser.processInHTMLContent(token, IN_HEAD)) "<body>" => (block: parse_error UNEXPECTED_START_TAG if parser.openElements.len == 1 or parser.getTagType(parser.openElements[1]) != TAG_BODY or parser.hasElement(TAG_TEMPLATE): discard else: parser.framesetOk = false parser.addAttrsIfMissing(parser.openElements[1], token.attrs) ) "<frameset>" => (block: parse_error UNEXPECTED_START_TAG if parser.openElements.len == 1 or parser.getTagType(parser.openElements[1]) != TAG_BODY or not parser.framesetOk: discard else: parser.remove(parser.openElements[1]) pop_all_nodes ) TokenType.EOF => (block: if parser.templateModes.len > 0: parser.processInHTMLContent(token, IN_TEMPLATE) else: parse_error_if_body_has_disallowed_open_elements # stop ) "</body>" => (block: if not parser.hasElementInScope(TAG_BODY): parse_error UNEXPECTED_END_TAG else: parse_error_if_body_has_disallowed_open_elements parser.insertionMode = AFTER_BODY ) "</html>" => (block: if not parser.hasElementInScope(TAG_BODY): parse_error UNEXPECTED_END_TAG else: parse_error_if_body_has_disallowed_open_elements parser.insertionMode = AFTER_BODY reprocess token ) ("<address>", "<article>", "<aside>", "<blockquote>", "<center>", "<details>", "<dialog>", "<dir>", "<div>", "<dl>", "<fieldset>", "<figcaption>", "<figure>", "<footer>", "<header>", "<hgroup>", "<main>", "<menu>", "<nav>", "<ol>", "<p>", "<section>", "<summary>", "<ul>") => (block: if parser.hasElementInButtonScope(TAG_P): parser.closeP() discard parser.insertHTMLElement(token) ) ("<h1>", "<h2>", "<h3>", "<h4>", "<h5>", "<h6>") => (block: if parser.hasElementInButtonScope(TAG_P): parser.closeP() if parser.getTagType(parser.currentNode) in HTagTypes: parse_error NESTED_TAGS pop_current_node discard parser.insertHTMLElement(token) ) ("<pre>", "<listing>") => (block: if parser.hasElementInButtonScope(TAG_P): parser.closeP() discard parser.insertHTMLElement(token) parser.ignoreLF = true parser.framesetOk = false ) "<form>" => (block: let hasTemplate = parser.hasElement(TAG_TEMPLATE) if parser.form.isSome and not hasTemplate: parse_error NESTED_TAGS else: if parser.hasElementInButtonScope(TAG_P): parser.closeP() let element = parser.insertHTMLElement(token) if not hasTemplate: parser.form = some(element) ) "<li>" => (block: parser.framesetOk = false for i in countdown(parser.openElements.high, 0): let node = parser.openElements[i] let tagType = parser.getTagType(node) case tagType of TAG_LI: parser.generateImpliedEndTags(TAG_LI) parse_error_if_mismatch TAG_LI parser.popElementsIncl(TAG_LI) break of SpecialElements - {TAG_ADDRESS, TAG_DIV, TAG_P, TAG_LI}: break else: discard if parser.hasElementInButtonScope(TAG_P): parser.closeP() discard parser.insertHTMLElement(token) ) ("<dd>", "<dt>") => (block: parser.framesetOk = false for i in countdown(parser.openElements.high, 0): let node = parser.openElements[i] let tagType = parser.getTagType(node) case tagType of TAG_DD: parser.generateImpliedEndTags(TAG_DD) parse_error_if_mismatch TAG_DD parser.popElementsIncl(TAG_DD) break of TAG_DT: parser.generateImpliedEndTags(TAG_DT) parse_error_if_mismatch TAG_DT parser.popElementsIncl(TAG_DT) break of SpecialElements - {TAG_ADDRESS, TAG_DIV, TAG_P, TAG_DD, TAG_DT}: break else: discard if parser.hasElementInButtonScope(TAG_P): parser.closeP() discard parser.insertHTMLElement(token) ) "<plaintext>" => (block: if parser.hasElementInButtonScope(TAG_P): parser.closeP() discard parser.insertHTMLElement(token) parser.tokenizer.state = PLAINTEXT ) "<button>" => (block: if parser.hasElementInScope(TAG_BUTTON): parse_error NESTED_TAGS parser.generateImpliedEndTags() parser.popElementsIncl(TAG_BUTTON) parser.reconstructActiveFormatting() discard parser.insertHTMLElement(token) parser.framesetOk = false ) ("</address>", "</article>", "</aside>", "</blockquote>", "</button>", "</center>", "</details>", "</dialog>", "</dir>", "</div>", "</dl>", "</fieldset>", "</figcaption>", "</figure>", "</footer>", "</header>", "</hgroup>", "</listing>", "</main>", "</menu>", "</nav>", "</ol>", "</pre>", "</section>", "</summary>", "</ul>") => (block: if not parser.hasElementInScope(token.tagtype): parse_error ELEMENT_NOT_IN_SCOPE else: parser.generateImpliedEndTags() parse_error_if_mismatch token.tagtype parser.popElementsIncl(token.tagtype) ) "</form>" => (block: if not parser.hasElement(TAG_TEMPLATE): let form = parser.form parser.form = none(Handle) if form.isNone or not parser.hasElementInScope(parser.getTagType(form.get)): parse_error ELEMENT_NOT_IN_SCOPE return let node = form.get parser.generateImpliedEndTags() if parser.currentNode != node: parse_error ELEMENT_NOT_CURRENT_NODE parser.openElements.delete(parser.openElements.find(node)) else: if not parser.hasElementInScope(TAG_FORM): parse_error ELEMENT_NOT_IN_SCOPE else: parser.generateImpliedEndTags() parse_error_if_mismatch TAG_FORM parser.popElementsIncl(TAG_FORM) ) "</p>" => (block: if not parser.hasElementInButtonScope(TAG_P): parse_error ELEMENT_NOT_IN_SCOPE discard parser.insertHTMLElement(Token(t: START_TAG, tagtype: TAG_P)) parser.closeP() ) "</li>" => (block: if not parser.hasElementInListItemScope(TAG_LI): parse_error ELEMENT_NOT_IN_SCOPE else: parser.generateImpliedEndTags(TAG_LI) parse_error_if_mismatch TAG_LI parser.popElementsIncl(TAG_LI) ) ("</dd>", "</dt>") => (block: if not parser.hasElementInScope(token.tagtype): parse_error ELEMENT_NOT_IN_SCOPE else: parser.generateImpliedEndTags(token.tagtype) parse_error_if_mismatch token.tagtype parser.popElementsIncl(token.tagtype) ) ("</h1>", "</h2>", "</h3>", "</h4>", "</h5>", "</h6>") => (block: if not parser.hasElementInScope(HTagTypes): parse_error ELEMENT_NOT_IN_SCOPE else: parser.generateImpliedEndTags() parse_error_if_mismatch token.tagtype parser.popElementsIncl(HTagTypes) ) "</sarcasm>" => (block: #*deep breath* anything_else ) "<a>" => (block: var anchor: Option[Handle] for i in countdown(parser.activeFormatting.high, 0): let format = parser.activeFormatting[i] if format[0] == nil: break if parser.getTagType(format[0]) == TAG_A: anchor = some(format[0]) break if anchor.isSome: parse_error NESTED_TAGS if parser.adoptionAgencyAlgorithm(token): any_other_end_tag return for i in 0..parser.activeFormatting.high: if parser.activeFormatting[i][0] == anchor.get: parser.activeFormatting.delete(i) break for i in 0..parser.openElements.high: if parser.openElements[i] == anchor.get: parser.openElements.delete(i) break parser.reconstructActiveFormatting() let element = parser.insertHTMLElement(token) parser.pushOntoActiveFormatting(element, token) ) ("<b>", "<big>", "<code>", "<em>", "<font>", "<i>", "<s>", "<small>", "<strike>", "<strong>", "<tt>", "<u>") => (block: parser.reconstructActiveFormatting() let element = parser.insertHTMLElement(token) parser.pushOntoActiveFormatting(element, token) ) "<nobr>" => (block: parser.reconstructActiveFormatting() if parser.hasElementInScope(TAG_NOBR): parse_error NESTED_TAGS if parser.adoptionAgencyAlgorithm(token): any_other_end_tag return parser.reconstructActiveFormatting() let element = parser.insertHTMLElement(token) parser.pushOntoActiveFormatting(element, token) ) ("</a>", "</b>", "</big>", "</code>", "</em>", "</font>", "</i>", "</nobr>", "</s>", "</small>", "</strike>", "</strong>", "</tt>", "</u>") => (block: if parser.adoptionAgencyAlgorithm(token): any_other_end_tag return ) ("<applet>", "<marquee>", "<object>") => (block: parser.reconstructActiveFormatting() discard parser.insertHTMLElement(token) parser.activeFormatting.add((nil, nil)) parser.framesetOk = false ) ("</applet>", "</marquee>", "</object>") => (block: if not parser.hasElementInScope(token.tagtype): parse_error ELEMENT_NOT_IN_SCOPE else: parser.generateImpliedEndTags() parse_error_if_mismatch token.tagtype while parser.getTagType(parser.popElement()) != token.tagtype: discard parser.clearActiveFormattingTillMarker() ) "<table>" => (block: if parser.quirksMode != QUIRKS: if parser.hasElementInButtonScope(TAG_P): parser.closeP() discard parser.insertHTMLElement(token) parser.framesetOk = false parser.insertionMode = IN_TABLE ) "</br>" => (block: parse_error UNEXPECTED_END_TAG reprocess Token(t: START_TAG, tagtype: TAG_BR) ) ("<area>", "<br>", "<embed>", "<img>", "<keygen>", "<wbr>") => (block: parser.reconstructActiveFormatting() discard parser.insertHTMLElement(token) pop_current_node parser.framesetOk = false ) "<input>" => (block: parser.reconstructActiveFormatting() discard parser.insertHTMLElement(token) pop_current_node if not token.attrs.getOrDefault("type").equalsIgnoreCase("hidden"): parser.framesetOk = false ) ("<param>", "<source>", "<track>") => (block: discard parser.insertHTMLElement(token) pop_current_node ) "<hr>" => (block: if parser.hasElementInButtonScope(TAG_P): parser.closeP() discard parser.insertHTMLElement(token) pop_current_node parser.framesetOk = false ) "<image>" => (block: #TODO ew let token = Token(t: START_TAG, tagtype: TAG_IMG, tagname: "img", selfclosing: token.selfclosing, attrs: token.attrs) reprocess token ) "<textarea>" => (block: discard parser.insertHTMLElement(token) parser.ignoreLF = true parser.tokenizer.state = RCDATA parser.oldInsertionMode = parser.insertionMode parser.framesetOk = false parser.insertionMode = TEXT ) "<xmp>" => (block: if parser.hasElementInButtonScope(TAG_P): parser.closeP() parser.reconstructActiveFormatting() parser.framesetOk = false parser.genericRawtextElementParsingAlgorithm(token) ) "<iframe>" => (block: parser.framesetOk = false parser.genericRawtextElementParsingAlgorithm(token) ) "<noembed>" => (block: parser.genericRawtextElementParsingAlgorithm(token) ) "<noscript>" => (block: if parser.opts.scripting: parser.genericRawtextElementParsingAlgorithm(token) else: any_other_start_tag ) "<select>" => (block: parser.reconstructActiveFormatting() discard parser.insertHTMLElement(token) parser.framesetOk = false if parser.insertionMode in {IN_TABLE, IN_CAPTION, IN_TABLE_BODY, IN_CELL}: parser.insertionMode = IN_SELECT_IN_TABLE else: parser.insertionMode = IN_SELECT ) ("<optgroup>", "<option>") => (block: if parser.getTagType(parser.currentNode) == TAG_OPTION: pop_current_node parser.reconstructActiveFormatting() discard parser.insertHTMLElement(token) ) ("<rb>", "<rtc>") => (block: if parser.hasElementInScope(TAG_RUBY): parser.generateImpliedEndTags() parse_error_if_mismatch TAG_RUBY discard parser.insertHTMLElement(token) ) ("<rp>", "<rt>") => (block: if parser.hasElementInScope(TAG_RUBY): parser.generateImpliedEndTags(TAG_RTC) parse_error_if_mismatch {TAG_RUBY, TAG_RTC} discard parser.insertHTMLElement(token) ) #NOTE <math> (not implemented) #TODO <svg> (SVG) ("<caption>", "<col>", "<colgroup>", "<frame>", "<head>", "<tbody>", "<td>", "<tfoot>", "<th>", "<thead>", "<tr>") => (block: parse_error UNEXPECTED_START_TAG ) TokenType.START_TAG => (block: any_other_start_tag) TokenType.END_TAG => (block: any_other_end_tag) of TEXT: match token: TokenType.CHARACTER_ASCII => (block: assert token.c != '\0' parser.insertCharacter(token.c) ) TokenType.CHARACTER => (block: parser.insertCharacter(token.r) ) TokenType.EOF => (block: parse_error UNEXPECTED_EOF if parser.getTagType(parser.currentNode) == TAG_SCRIPT: parser.setScriptAlreadyStarted(parser.currentNode) pop_current_node parser.insertionMode = parser.oldInsertionMode reprocess token ) "</script>" => (block: #TODO microtask (?) pop_current_node parser.insertionMode = parser.oldInsertionMode ) TokenType.END_TAG => (block: pop_current_node parser.insertionMode = parser.oldInsertionMode ) of IN_TABLE: template clear_the_stack_back_to_a_table_context() = while parser.getTagType(parser.currentNode) notin {TAG_TABLE, TAG_TEMPLATE, TAG_HTML}: pop_current_node match token: (TokenType.CHARACTER_ASCII, TokenType.CHARACTER) => (block: const CanHaveText = { TAG_TABLE, TAG_TBODY, TAG_TFOOT, TAG_THEAD, TAG_TR } if parser.getTagType(parser.currentNode) in CanHaveText: parser.pendingTableChars = "" parser.pendingTableCharsWhitespace = true parser.oldInsertionMode = parser.insertionMode parser.insertionMode = IN_TABLE_TEXT reprocess token else: # anything else parse_error INVALID_TEXT_PARENT parser.fosterParenting = true parser.processInHTMLContent(token, IN_BODY) parser.fosterParenting = false ) TokenType.COMMENT => (block: parser.insertComment(token)) TokenType.DOCTYPE => (block: parse_error UNEXPECTED_DOCTYPE) "<caption>" => (block: clear_the_stack_back_to_a_table_context parser.activeFormatting.add((nil, nil)) discard parser.insertHTMLElement(token) parser.insertionMode = IN_CAPTION ) "<colgroup>" => (block: clear_the_stack_back_to_a_table_context discard parser.insertHTMLElement(Token(t: START_TAG, tagtype: TAG_COLGROUP)) parser.insertionMode = IN_COLUMN_GROUP ) ("<tbody>", "<tfoot>", "<thead>") => (block: clear_the_stack_back_to_a_table_context discard parser.insertHTMLElement(token) parser.insertionMode = IN_TABLE_BODY ) ("<td>", "<th>", "<tr>") => (block: clear_the_stack_back_to_a_table_context discard parser.insertHTMLElement(Token(t: START_TAG, tagtype: TAG_TBODY)) parser.insertionMode = IN_TABLE_BODY reprocess token ) "<table>" => (block: parse_error NESTED_TAGS if not parser.hasElementInScope(TAG_TABLE): discard else: while parser.getTagType(parser.popElement()) != TAG_TABLE: discard parser.resetInsertionMode() reprocess token ) "</table>" => (block: if not parser.hasElementInScope(TAG_TABLE): parse_error ELEMENT_NOT_IN_SCOPE else: while parser.getTagType(parser.popElement()) != TAG_TABLE: discard parser.resetInsertionMode() ) ("</body>", "</caption>", "</col>", "</colgroup>", "</html>", "</tbody>", "</td>", "</tfoot>", "</th>", "</thead>", "</tr>") => (block: parse_error UNEXPECTED_END_TAG ) ("<style>", "<script>", "<template>", "</template>") => (block: parser.processInHTMLContent(token, IN_HEAD) ) "<input>" => (block: parse_error UNEXPECTED_START_TAG if not token.attrs.getOrDefault("type").equalsIgnoreCase("hidden"): # anything else parser.fosterParenting = true parser.processInHTMLContent(token, IN_BODY) parser.fosterParenting = false else: discard parser.insertHTMLElement(token) pop_current_node ) "<form>" => (block: parse_error UNEXPECTED_START_TAG if parser.form.isSome or parser.hasElement(TAG_TEMPLATE): discard else: parser.form = some(parser.insertHTMLElement(token)) pop_current_node ) TokenType.EOF => (block: parser.processInHTMLContent(token, IN_BODY) ) _ => (block: parse_error UNEXPECTED_START_TAG parser.fosterParenting = true parser.processInHTMLContent(token, IN_BODY) parser.fosterParenting = false ) of IN_TABLE_TEXT: match token: '\0' => (block: parse_error UNEXPECTED_NULL) TokenType.CHARACTER_ASCII => (block: if token.c notin AsciiWhitespace: parser.pendingTableCharsWhitespace = false parser.pendingTableChars &= token.c ) TokenType.CHARACTER => (block: parser.pendingTableChars &= $token.r parser.pendingTableCharsWhitespace = false ) _ => (block: if not parser.pendingTableCharsWhitespace: # I *think* this is effectively the same thing the specification # wants... parse_error NON_SPACE_TABLE_TEXT parser.fosterParenting = true parser.reconstructActiveFormatting() parser.insertCharacter(parser.pendingTableChars) parser.framesetOk = false parser.fosterParenting = false else: parser.insertCharacter(parser.pendingTableChars) parser.insertionMode = parser.oldInsertionMode reprocess token ) of IN_CAPTION: match token: "</caption>" => (block: if not parser.hasElementInTableScope(TAG_CAPTION): parse_error ELEMENT_NOT_IN_SCOPE else: parser.generateImpliedEndTags() parse_error_if_mismatch TAG_CAPTION parser.popElementsIncl(TAG_CAPTION) parser.clearActiveFormattingTillMarker() parser.insertionMode = IN_TABLE ) ("<caption>", "<col>", "<colgroup>", "<tbody>", "<td>", "<tfoot>", "<th>", "<thead>", "<tr>", "</table>") => (block: if not parser.hasElementInTableScope(TAG_CAPTION): parse_error ELEMENT_NOT_IN_SCOPE else: parser.generateImpliedEndTags() parse_error_if_mismatch TAG_CAPTION parser.clearActiveFormattingTillMarker() parser.insertionMode = IN_TABLE reprocess token ) ("</body>", "</col>", "</colgroup>", "</html>", "</tbody>", "</td>", "</tfoot>", "</th>", "</thead>", "</tr>") => (block: parse_error UNEXPECTED_END_TAG ) _ => (block: parser.processInHTMLContent(token, IN_BODY)) of IN_COLUMN_GROUP: match token: AsciiWhitespace => (block: parser.insertCharacter(token.c)) TokenType.COMMENT => (block: parser.insertComment(token)) TokenType.DOCTYPE => (block: parse_error UNEXPECTED_DOCTYPE) "<html>" => (block: parser.processInHTMLContent(token, IN_BODY)) "<col>" => (block: discard parser.insertHTMLElement(token) pop_current_node ) "</colgroup>" => (block: if parser.getTagType(parser.currentNode) != TAG_COLGROUP: parse_error MISMATCHED_TAGS else: pop_current_node parser.insertionMode = IN_TABLE ) "</col>" => (block: parse_error UNEXPECTED_END_TAG) ("<template>", "</template>") => (block: parser.processInHTMLContent(token, IN_HEAD) ) TokenType.EOF => (block: parser.processInHTMLContent(token, IN_BODY)) _ => (block: if parser.getTagType(parser.currentNode) != TAG_COLGROUP: parse_error MISMATCHED_TAGS else: pop_current_node parser.insertionMode = IN_TABLE reprocess token ) of IN_TABLE_BODY: template clear_the_stack_back_to_a_table_body_context() = while parser.getTagType(parser.currentNode) notin {TAG_TBODY, TAG_TFOOT, TAG_THEAD, TAG_TEMPLATE, TAG_HTML}: pop_current_node match token: "<tr>" => (block: clear_the_stack_back_to_a_table_body_context discard parser.insertHTMLElement(token) parser.insertionMode = IN_ROW ) ("<th>", "<td>") => (block: parse_error UNEXPECTED_START_TAG clear_the_stack_back_to_a_table_body_context discard parser.insertHTMLElement(Token(t: START_TAG, tagtype: TAG_TR)) parser.insertionMode = IN_ROW reprocess token ) ("</tbody>", "</tfoot>", "</thead>") => (block: if not parser.hasElementInTableScope(token.tagtype): parse_error ELEMENT_NOT_IN_SCOPE else: clear_the_stack_back_to_a_table_body_context pop_current_node parser.insertionMode = IN_TABLE ) ("<caption>", "<col>", "<colgroup>", "<tbody>", "<tfoot>", "<thead>", "</table>") => (block: if not parser.hasElementInTableScope({TAG_TBODY, TAG_THEAD, TAG_TFOOT}): parse_error ELEMENT_NOT_IN_SCOPE else: clear_the_stack_back_to_a_table_body_context pop_current_node parser.insertionMode = IN_TABLE reprocess token ) ("</body>", "</caption>", "</col>", "</colgroup>", "</html>", "</td>", "</th>", "</tr>") => (block: parse_error ELEMENT_NOT_IN_SCOPE ) _ => (block: parser.processInHTMLContent(token, IN_TABLE)) of IN_ROW: template clear_the_stack_back_to_a_table_row_context() = while parser.getTagType(parser.currentNode) notin {TAG_TR, TAG_TEMPLATE, TAG_HTML}: pop_current_node match token: ("<th>", "<td>") => (block: clear_the_stack_back_to_a_table_row_context discard parser.insertHTMLElement(token) parser.insertionMode = IN_CELL parser.activeFormatting.add((nil, nil)) ) "</tr>" => (block: if not parser.hasElementInTableScope(TAG_TR): parse_error ELEMENT_NOT_IN_SCOPE else: clear_the_stack_back_to_a_table_row_context pop_current_node parser.insertionMode = IN_TABLE_BODY ) ("<caption>", "<col>", "<colgroup>", "<tbody>", "<tfoot>", "<thead>", "<tr>", "</table>") => (block: if not parser.hasElementInTableScope(TAG_TR): parse_error ELEMENT_NOT_IN_SCOPE else: clear_the_stack_back_to_a_table_row_context pop_current_node parser.insertionMode = IN_TABLE_BODY reprocess token ) ("</tbody>", "</tfoot>", "</thead>") => (block: if not parser.hasElementInTableScope(token.tagtype): parse_error ELEMENT_NOT_IN_SCOPE elif not parser.hasElementInTableScope(TAG_TR): discard else: clear_the_stack_back_to_a_table_row_context pop_current_node parser.insertionMode = IN_BODY reprocess token ) ("</body>", "</caption>", "</col>", "</colgroup>", "</html>", "</td>", "</th>") => (block: parse_error UNEXPECTED_END_TAG) _ => (block: parser.processInHTMLContent(token, IN_TABLE)) of IN_CELL: template close_cell() = parser.generateImpliedEndTags() parse_error_if_mismatch {TAG_TD, TAG_TH} parser.popElementsIncl({TAG_TD, TAG_TH}) parser.clearActiveFormattingTillMarker() parser.insertionMode = IN_ROW match token: ("</td>", "</th>") => (block: if not parser.hasElementInTableScope(token.tagtype): parse_error ELEMENT_NOT_IN_SCOPE else: parser.generateImpliedEndTags() parse_error_if_mismatch token.tagtype parser.popElementsIncl(token.tagtype) parser.clearActiveFormattingTillMarker() parser.insertionMode = IN_ROW ) ("<caption>", "<col>", "<colgroup>", "<tbody>", "<td>", "<tfoot>", "<thead>", "<tr>") => (block: if not parser.hasElementInTableScope({TAG_TD, TAG_TH}): parse_error ELEMENT_NOT_IN_SCOPE else: close_cell reprocess token ) ("</body>", "</caption>", "</col>", "</colgroup>", "</html>") => (block: parse_error UNEXPECTED_END_TAG ) ("</table>", "</tbody>", "</tfoot>", "</thead>", "</tr>") => (block: if not parser.hasElementInTableScope(token.tagtype): parse_error ELEMENT_NOT_IN_SCOPE else: close_cell reprocess token ) _ => (block: parser.processInHTMLContent(token, IN_BODY)) of IN_SELECT: match token: '\0' => (block: parse_error UNEXPECTED_NULL) TokenType.CHARACTER_ASCII => (block: parser.insertCharacter(token.c)) TokenType.CHARACTER => (block: parser.insertCharacter(token.r)) TokenType.COMMENT => (block: parser.insertComment(token)) TokenType.DOCTYPE => (block: parse_error UNEXPECTED_DOCTYPE) "<html>" => (block: parser.processInHTMLContent(token, IN_BODY)) "<option>" => (block: if parser.getTagType(parser.currentNode) == TAG_OPTION: pop_current_node discard parser.insertHTMLElement(token) ) "<optgroup>" => (block: if parser.getTagType(parser.currentNode) == TAG_OPTION: pop_current_node if parser.getTagType(parser.currentNode) == TAG_OPTGROUP: pop_current_node discard parser.insertHTMLElement(token) ) "</optgroup>" => (block: if parser.getTagType(parser.currentNode) == TAG_OPTION: if parser.openElements.len > 1 and parser.getTagType(parser.openElements[^2]) == TAG_OPTGROUP: pop_current_node if parser.getTagType(parser.currentNode) == TAG_OPTGROUP: pop_current_node else: parse_error MISMATCHED_TAGS ) "</option>" => (block: if parser.getTagType(parser.currentNode) == TAG_OPTION: pop_current_node else: parse_error MISMATCHED_TAGS ) "</select>" => (block: if not parser.hasElementInSelectScope(TAG_SELECT): parse_error ELEMENT_NOT_IN_SCOPE else: while parser.getTagType(parser.popElement()) != TAG_SELECT: discard parser.resetInsertionMode() ) "<select>" => (block: parse_error NESTED_TAGS if parser.hasElementInSelectScope(TAG_SELECT): while parser.getTagType(parser.popElement()) != TAG_SELECT: discard parser.resetInsertionMode() ) ("<input>", "<keygen>", "<textarea>") => (block: parse_error UNEXPECTED_START_TAG if not parser.hasElementInSelectScope(TAG_SELECT): discard else: while parser.getTagType(parser.popElement()) != TAG_SELECT: discard parser.resetInsertionMode() reprocess token ) ("<script>", "<template>", "</template>") => (block: parser.processInHTMLContent(token, IN_HEAD)) TokenType.EOF => (block: parser.processInHTMLContent(token, IN_BODY)) TokenType.START_TAG => (block: parse_error UNEXPECTED_START_TAG) TokenType.END_TAG => (block: parse_error UNEXPECTED_END_TAG) of IN_SELECT_IN_TABLE: match token: ("<caption>", "<table>", "<tbody>", "<tfoot>", "<thead>", "<tr>", "<td>", "<th>") => (block: parse_error UNEXPECTED_START_TAG while parser.getTagType(parser.popElement()) != TAG_SELECT: discard parser.resetInsertionMode() reprocess token ) ("</caption>", "</table>", "</tbody>", "</tfoot>", "</thead>", "</tr>", "</td>", "</th>") => (block: parse_error UNEXPECTED_END_TAG if not parser.hasElementInTableScope(token.tagtype): discard else: parser.popElementsIncl(TAG_SELECT) parser.resetInsertionMode() reprocess token ) _ => (block: parser.processInHTMLContent(token, IN_SELECT)) of IN_TEMPLATE: match token: (TokenType.CHARACTER_ASCII, TokenType.CHARACTER, TokenType.DOCTYPE) => (block: parser.processInHTMLContent(token, IN_BODY) ) ("<base>", "<basefont>", "<bgsound>", "<link>", "<meta>", "<noframes>", "<script>", "<style>", "<template>", "<title>", "</template>") => (block: parser.processInHTMLContent(token, IN_HEAD) ) ("<caption>", "<colgroup>", "<tbody>", "<tfoot>", "<thead>") => (block: discard parser.templateModes.pop() parser.templateModes.add(IN_TABLE) parser.insertionMode = IN_TABLE reprocess token ) "<col>" => (block: discard parser.templateModes.pop() parser.templateModes.add(IN_COLUMN_GROUP) parser.insertionMode = IN_COLUMN_GROUP reprocess token ) "<tr>" => (block: discard parser.templateModes.pop() parser.templateModes.add(IN_TABLE_BODY) parser.insertionMode = IN_TABLE_BODY reprocess token ) ("<td>", "<th>") => (block: discard parser.templateModes.pop() parser.templateModes.add(IN_ROW) parser.insertionMode = IN_ROW reprocess token ) TokenType.START_TAG => (block: discard parser.templateModes.pop() parser.templateModes.add(IN_BODY) parser.insertionMode = IN_BODY reprocess token ) TokenType.END_TAG => (block: parse_error UNEXPECTED_END_TAG) TokenType.EOF => (block: if not parser.hasElement(TAG_TEMPLATE): discard # stop else: parse_error UNEXPECTED_EOF parser.popElementsIncl(TAG_TEMPLATE) parser.clearActiveFormattingTillMarker() discard parser.templateModes.pop() parser.resetInsertionMode() reprocess token ) of AFTER_BODY: match token: AsciiWhitespace => (block: parser.processInHTMLContent(token, IN_BODY)) TokenType.COMMENT => (block: parser.insertComment(token, last_child_of(parser.openElements[0]))) TokenType.DOCTYPE => (block: parse_error UNEXPECTED_DOCTYPE) "<html>" => (block: parser.processInHTMLContent(token, IN_BODY)) "</html>" => (block: if parser.fragment: parse_error UNEXPECTED_END_TAG else: parser.insertionMode = AFTER_AFTER_BODY ) TokenType.EOF => (block: discard) # stop _ => (block: parse_error UNEXPECTED_AFTER_BODY_TOKEN parser.insertionMode = IN_BODY reprocess token ) of IN_FRAMESET: match token: AsciiWhitespace => (block: parser.insertCharacter(token.c)) TokenType.COMMENT => (block: parser.insertComment(token)) TokenType.DOCTYPE => (block: parse_error UNEXPECTED_DOCTYPE) "<html>" => (block: parser.processInHTMLContent(token, IN_BODY)) "<frameset>" => (block: if parser.getTagType(parser.currentNode) == TAG_HTML: parse_error UNEXPECTED_START_TAG else: pop_current_node if not parser.fragment and parser.getTagType(parser.currentNode) != TAG_FRAMESET: parser.insertionMode = AFTER_FRAMESET ) "<frame>" => (block: discard parser.insertHTMLElement(token) pop_current_node ) "<noframes>" => (block: parser.processInHTMLContent(token, IN_HEAD)) TokenType.EOF => (block: if parser.getTagType(parser.currentNode) != TAG_HTML: parse_error UNEXPECTED_EOF # stop ) _ => (block: parser.parseErrorByTokenType(token.t)) of AFTER_FRAMESET: match token: AsciiWhitespace => (block: parser.insertCharacter(token.c)) TokenType.COMMENT => (block: parser.insertComment(token)) TokenType.DOCTYPE => (block: parse_error UNEXPECTED_DOCTYPE) "<html>" => (block: parser.processInHTMLContent(token, IN_BODY)) "</html>" => (block: parser.insertionMode = AFTER_AFTER_FRAMESET) "<noframes>" => (block: parser.processInHTMLContent(token, IN_HEAD)) TokenType.EOF => (block: discard) # stop _ => (block: parser.parseErrorByTokenType(token.t)) of AFTER_AFTER_BODY: match token: TokenType.COMMENT => (block: parser.insertComment(token, last_child_of(parser.document)) ) (TokenType.DOCTYPE, AsciiWhitespace, "<html>") => (block: parser.processInHTMLContent(token, IN_BODY) ) TokenType.EOF => (block: discard) # stop _ => (block: parser.parseErrorByTokenType(token.t) parser.insertionMode = IN_BODY reprocess token ) of AFTER_AFTER_FRAMESET: match token: TokenType.COMMENT => (block: parser.insertComment(token, last_child_of(parser.document)) ) (TokenType.DOCTYPE, AsciiWhitespace, "<html>") => (block: parser.processInHTMLContent(token, IN_BODY) ) TokenType.EOF => (block: discard) # stop "<noframes>" => (block: parser.processInHTMLContent(token, IN_HEAD)) _ => (block: parser.parseErrorByTokenType(token.t)) const CaseTable = { "altglyph": "altGlyph", "altglyphdef": "altGlyphDef", "altglyphitem": "altGlyphItem", "animatecolor": "animateColor", "animatemotion": "animateMotion", "animatetransform": "animateTransform", "clippath": "clipPath", "feblend": "feBlend", "fecolormatrix": "feColorMatrix", "fecomponenttransfer": "feComponentTransfer", "fecomposite": "feComposite", "feconvolvematrix": "feConvolveMatrix", "fediffuselighting": "feDiffuseLighting", "fedisplacementmap": "feDisplacementMap", "fedistantlight": "feDistantLight", "fedropshadow": "feDropShadow", "feflood": "feFlood", "fefunca": "feFuncA", "fefuncb": "feFuncB", "fefuncg": "feFuncG", "fefuncr": "feFuncR", "fegaussianblur": "feGaussianBlur", "feimage": "feImage", "femerge": "feMerge", "femergenode": "feMergeNode", "femorphology": "feMorphology", "feoffset": "feOffset", "fepointlight": "fePointLight", "fespecularlighting": "feSpecularLighting", "fespotlight": "feSpotLight", "fetile": "feTile", "feturbulence": "feTurbulence", "foreignobject": "foreignObject", "glyphref": "glyphRef", "lineargradient": "linearGradient", "radialgradient": "radialGradient", "textpath": "textPath", }.toTable() proc processInForeignContent(parser: var HTML5Parser, token: Token) = macro `=>`(v: typed, body: untyped): untyped = quote do: discard (`v`, proc() = `body`) template script_end_tag() = pop_current_node #TODO document.write (?) #TODO SVG template parse_error(e: ParseError) = parser.parseError(e) template any_other_end_tag() = if parser.getLocalName(parser.currentNode) != token.tagname: parse_error UNEXPECTED_END_TAG for i in countdown(parser.openElements.high, 1): let node = parser.openElements[i] if parser.getLocalName(parser.currentNode) == token.tagname: while parser.popElement() != node: discard break if parser.getNamespace(node) == Namespace.HTML: break parser.processInHTMLContent(token, parser.insertionMode) match token: '\0' => (block: parse_error UNEXPECTED_NULL parser.insertCharacter(Rune(0xFFFD)) ) AsciiWhitespace => (block: parser.insertCharacter(token.c)) TokenType.CHARACTER_ASCII => (block: parser.insertCharacter(token.c)) TokenType.CHARACTER => (block: parser.insertCharacter(token.r)) TokenType.DOCTYPE => (block: parse_error UNEXPECTED_DOCTYPE) ("<b>", "<big>", "<blockquote>", "<body>", "<br>", "<center>", "<code>", "<dd>", "<div>", "<dl>", "<dt>", "<em>", "<embed>", "<h1>", "<h2>", "<h3>", "<h4>", "<h5>", "<h6>", "<head>", "<hr>", "<i>", "<img>", "<li>", "<listing>", "<menu>", "<meta>", "<nobr>", "<ol>", "<p>", "<pre>", "<ruby>", "<s>", "<small>", "<span>", "<strong>", "<strike>", "<sub>", "<sup>", "<table>", "<tt>", "<u>", "<ul>", "<var>") => (block: parse_error UNEXPECTED_START_TAG #NOTE MathML not implemented while not parser.isHTMLIntegrationPoint(parser.currentNode) and parser.getNamespace(parser.currentNode) != Namespace.HTML: pop_current_node parser.processInHTMLContent(token, parser.insertionMode) ) TokenType.START_TAG => (block: #NOTE MathML not implemented let namespace = parser.getNamespace(parser.adjustedCurrentNode) if namespace == Namespace.SVG: if token.tagname in CaseTable: token.tagname = CaseTable[token.tagname] adjustSVGAttributes(token) #TODO adjust foreign attributes discard parser.insertForeignElement(token, namespace) if token.selfclosing and namespace == Namespace.SVG: script_end_tag else: pop_current_node ) "</script>" => (block: let namespace = parser.getNamespace(parser.currentNode) let localName = parser.getLocalName(parser.currentNode) if namespace == Namespace.SVG and localName == "script": #TODO SVG script_end_tag else: any_other_end_tag ) TokenType.END_TAG => (block: any_other_end_tag) proc constructTree[Handle](parser: var HTML5Parser[Handle]) = for token in parser.tokenizer.tokenize: if parser.ignoreLF: parser.ignoreLF = false if token.t == CHARACTER_ASCII and token.c == '\n': continue let isTokenHTML = token.t in {START_TAG, CHARACTER, CHARACTER_ASCII} if parser.openElements.len == 0 or parser.getNamespace(parser.adjustedCurrentNode) == Namespace.HTML or parser.isHTMLIntegrationPoint(parser.adjustedCurrentNode) and isTokenHTML or token.t == EOF: #NOTE MathML not implemented parser.processInHTMLContent(token, parser.insertionMode) else: parser.processInForeignContent(token) if parser.needsreinterpret: break proc finishParsing(parser: var HTML5Parser) = while parser.openElements.len > 0: pop_current_node if parser.dombuilder.finish != nil: parser.dombuilder.finish(parser.dombuilder) proc bomSniff(inputStream: Stream): Charset = # bom sniff const u8bom = char(0xEF) & char(0xBB) & char(0xBF) const bebom = char(0xFE) & char(0xFF) const lebom = char(0xFF) & char(0xFE) var bom = inputStream.readStr(2) if bom == bebom: return CHARSET_UTF_16_BE elif bom == lebom: return CHARSET_UTF_16_LE else: bom &= inputStream.readChar() if bom == u8bom: return CHARSET_UTF_8 else: inputStream.setPosition(0) # Any of these pointers being nil would later result in a crash. proc checkCallbacks(dombuilder: DOMBuilder) = doAssert dombuilder.getParentNode != nil doAssert dombuilder.getLocalName != nil doAssert dombuilder.createElement != nil doAssert dombuilder.createComment != nil doAssert dombuilder.createDocumentType != nil doAssert dombuilder.insertBefore != nil doAssert dombuilder.insertText != nil doAssert dombuilder.remove != nil proc parseHTML*[Handle](inputStream: Stream, dombuilder: DOMBuilder[Handle], opts: HTML5ParserOpts[Handle]) = ## Parse an HTML document, using the DOMBuilder object `dombuilder`, and ## parser options `opts`. dombuilder.checkCallbacks() var charsetStack: seq[Charset] for i in countdown(opts.charsets.high, 0): charsetStack.add(opts.charsets[i]) var canReinterpret = opts.canReinterpret var confidence: CharsetConfidence if canReinterpret: let scs = inputStream.bomSniff() if scs != CHARSET_UNKNOWN: charsetStack.add(scs) confidence = CONFIDENCE_CERTAIN canReinterpret = false if charsetStack.len == 0: charsetStack.add(DefaultCharset) # UTF-8 while true: let charset = charsetStack.pop() var parser = HTML5Parser[Handle]( dombuilder: dombuilder, confidence: confidence, charset: charset, opts: opts ) confidence = CONFIDENCE_TENTATIVE # used in the next iteration if not canReinterpret: parser.confidence = CONFIDENCE_CERTAIN let em = if charsetStack.len == 0 or not canReinterpret: DECODER_ERROR_MODE_REPLACEMENT else: DECODER_ERROR_MODE_FATAL let decoder = newDecoderStream(inputStream, parser.charset, errormode = em) proc x(e: ParseError) = parser.parseError(e) let onParseError = if parser.hasParseError(): x else: nil parser.tokenizer = newTokenizer(decoder, onParseError) parser.constructTree() if parser.needsreinterpret and canReinterpret: inputStream.setPosition(0) charsetStack.add(parser.charset) canReinterpret = false continue if decoder.failed and canReinterpret: inputStream.setPosition(0) continue parser.finishParsing() break