Lexer.cs 24 KB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190191192193194195196197198199200201202203204205206207208209210211212213214215216217218219220221222223224225226227228229230231232233234235236237238239240241242243244245246247248249250251252253254255256257258259260261262263264265266267268269270271272273274275276277278279280281282283284285286287288289290291292293294295296297298299300301302303304305306307308309310311312313314315316317318319320321322323324325326327328329330331332333334335336337338339340341342343344345346347348349350351352353354355356357358359360361362363364365366367368369370371372373374375376377378379380381382383384385386387388389390391392393394395396397398399400401402403404405406407408409410411412413414415416417418419420421422423424425426427428429430431432433434435436437438439440441442443444445446447448449450451452453454455456457458459460461462463464465466467468469470471472473474475476477478479480481482483484485486487488489490491492493494495496497498499500501502503504505506507508509510511512513514515516517518519520521522523524525526527528529530531532533534535536537538539540541542543544545546547548549550551552553554555556557558559560561562563564565566567568569570571572573574575576577578579580581582583584585586587588589590591592593594595596597598599600601602603604605606607608609610611612613614615616617618619620621622623624625626627628629630631632633634635636637638639640641642643644645646647648649650651652653654655656657658659660661662663664665666667668669670671672673674675676677678679680681682683684685686687688689690691692693694695696697698699700701702703704705706707708709710711712713714715716717718719720721722723724725726727728729730731732733734735736737738739740741742743744745746747748749750751752753754755756757758759760761762763764765766767768769770771772773774775776777778779780781782783784785786787788789790791792793794795796797798799800801802803804805806807808809810811812813814815816817818819820821822823824825826827828829830831832833834835836837838839840841842843844845846847848849850851852853854855856857858859860861862863864865866867868869870871872873874875876877878879880881882883884885886887888889890891892893894895896897898899900901902903904905906907908909910911912913914915916917918919920921922923924925926927928929930931932933934935936
  1. #region Header
  2. /**
  3. * Lexer.cs
  4. * JSON lexer implementation based on a finite state machine.
  5. *
  6. * The authors disclaim copyright to this source code. For more details, see
  7. * the COPYING file included with this distribution.
  8. **/
  9. #endregion
  10. using System;
  11. using System.Collections.Generic;
  12. using System.IO;
  13. using System.Text;
  14. namespace LitJson
  15. {
  16. internal class FsmContext
  17. {
  18. public bool Return;
  19. public int NextState;
  20. public Lexer L;
  21. public int StateStack;
  22. }
  23. internal class Lexer
  24. {
  25. #region Fields
  26. private delegate bool StateHandler (FsmContext ctx);
  27. private static readonly int[] fsm_return_table;
  28. private static readonly StateHandler[] fsm_handler_table;
  29. private bool allow_comments;
  30. private bool allow_single_quoted_strings;
  31. private bool end_of_input;
  32. private FsmContext fsm_context;
  33. private int input_buffer;
  34. private int input_char;
  35. private TextReader reader;
  36. private int state;
  37. private StringBuilder string_buffer;
  38. private string string_value;
  39. private int token;
  40. private int unichar;
  41. #endregion
  42. #region Properties
  43. public bool AllowComments {
  44. get { return allow_comments; }
  45. set { allow_comments = value; }
  46. }
  47. public bool AllowSingleQuotedStrings {
  48. get { return allow_single_quoted_strings; }
  49. set { allow_single_quoted_strings = value; }
  50. }
  51. public bool EndOfInput {
  52. get { return end_of_input; }
  53. }
  54. public int Token {
  55. get { return token; }
  56. }
  57. public string StringValue {
  58. get { return string_value; }
  59. }
  60. #endregion
  61. #region Constructors
  62. static Lexer ()
  63. {
  64. PopulateFsmTables (out fsm_handler_table, out fsm_return_table);
  65. }
  66. public Lexer (TextReader reader)
  67. {
  68. allow_comments = true;
  69. allow_single_quoted_strings = true;
  70. input_buffer = 0;
  71. string_buffer = new StringBuilder (128);
  72. state = 1;
  73. end_of_input = false;
  74. this.reader = reader;
  75. fsm_context = new FsmContext ();
  76. fsm_context.L = this;
  77. }
  78. #endregion
  79. #region Static Methods
  80. private static int HexValue (int digit)
  81. {
  82. switch (digit) {
  83. case 'a':
  84. case 'A':
  85. return 10;
  86. case 'b':
  87. case 'B':
  88. return 11;
  89. case 'c':
  90. case 'C':
  91. return 12;
  92. case 'd':
  93. case 'D':
  94. return 13;
  95. case 'e':
  96. case 'E':
  97. return 14;
  98. case 'f':
  99. case 'F':
  100. return 15;
  101. default:
  102. return digit - '0';
  103. }
  104. }
  105. private static void PopulateFsmTables (out StateHandler[] fsm_handler_table, out int[] fsm_return_table)
  106. {
  107. // See section A.1. of the manual for details of the finite
  108. // state machine.
  109. fsm_handler_table = new StateHandler[28] {
  110. State1,
  111. State2,
  112. State3,
  113. State4,
  114. State5,
  115. State6,
  116. State7,
  117. State8,
  118. State9,
  119. State10,
  120. State11,
  121. State12,
  122. State13,
  123. State14,
  124. State15,
  125. State16,
  126. State17,
  127. State18,
  128. State19,
  129. State20,
  130. State21,
  131. State22,
  132. State23,
  133. State24,
  134. State25,
  135. State26,
  136. State27,
  137. State28
  138. };
  139. fsm_return_table = new int[28] {
  140. (int) ParserToken.Char,
  141. 0,
  142. (int) ParserToken.Number,
  143. (int) ParserToken.Number,
  144. 0,
  145. (int) ParserToken.Number,
  146. 0,
  147. (int) ParserToken.Number,
  148. 0,
  149. 0,
  150. (int) ParserToken.True,
  151. 0,
  152. 0,
  153. 0,
  154. (int) ParserToken.False,
  155. 0,
  156. 0,
  157. (int) ParserToken.Null,
  158. (int) ParserToken.CharSeq,
  159. (int) ParserToken.Char,
  160. 0,
  161. 0,
  162. (int) ParserToken.CharSeq,
  163. (int) ParserToken.Char,
  164. 0,
  165. 0,
  166. 0,
  167. 0
  168. };
  169. }
  170. private static char ProcessEscChar (int esc_char)
  171. {
  172. switch (esc_char) {
  173. case '"':
  174. case '\'':
  175. case '\\':
  176. case '/':
  177. return Convert.ToChar (esc_char);
  178. case 'n':
  179. return '\n';
  180. case 't':
  181. return '\t';
  182. case 'r':
  183. return '\r';
  184. case 'b':
  185. return '\b';
  186. case 'f':
  187. return '\f';
  188. default:
  189. // Unreachable
  190. return '?';
  191. }
  192. }
  193. private static bool State1 (FsmContext ctx)
  194. {
  195. while (ctx.L.GetChar ()) {
  196. if (ctx.L.input_char == ' ' ||
  197. ctx.L.input_char >= '\t' && ctx.L.input_char <= '\r')
  198. continue;
  199. if (ctx.L.input_char >= '1' && ctx.L.input_char <= '9') {
  200. ctx.L.string_buffer.Append ((char) ctx.L.input_char);
  201. ctx.NextState = 3;
  202. return true;
  203. }
  204. switch (ctx.L.input_char) {
  205. case '"':
  206. ctx.NextState = 19;
  207. ctx.Return = true;
  208. return true;
  209. case ',':
  210. case ':':
  211. case '[':
  212. case ']':
  213. case '{':
  214. case '}':
  215. ctx.NextState = 1;
  216. ctx.Return = true;
  217. return true;
  218. case '-':
  219. ctx.L.string_buffer.Append ((char) ctx.L.input_char);
  220. ctx.NextState = 2;
  221. return true;
  222. case '0':
  223. ctx.L.string_buffer.Append ((char) ctx.L.input_char);
  224. ctx.NextState = 4;
  225. return true;
  226. case 'f':
  227. ctx.NextState = 12;
  228. return true;
  229. case 'n':
  230. ctx.NextState = 16;
  231. return true;
  232. case 't':
  233. ctx.NextState = 9;
  234. return true;
  235. case '\'':
  236. if (! ctx.L.allow_single_quoted_strings)
  237. return false;
  238. ctx.L.input_char = '"';
  239. ctx.NextState = 23;
  240. ctx.Return = true;
  241. return true;
  242. case '/':
  243. if (! ctx.L.allow_comments)
  244. return false;
  245. ctx.NextState = 25;
  246. return true;
  247. default:
  248. return false;
  249. }
  250. }
  251. return true;
  252. }
  253. private static bool State2 (FsmContext ctx)
  254. {
  255. ctx.L.GetChar ();
  256. if (ctx.L.input_char >= '1' && ctx.L.input_char<= '9') {
  257. ctx.L.string_buffer.Append ((char) ctx.L.input_char);
  258. ctx.NextState = 3;
  259. return true;
  260. }
  261. switch (ctx.L.input_char) {
  262. case '0':
  263. ctx.L.string_buffer.Append ((char) ctx.L.input_char);
  264. ctx.NextState = 4;
  265. return true;
  266. case -1:
  267. return true;
  268. default:
  269. return false;
  270. }
  271. }
  272. private static bool State3 (FsmContext ctx)
  273. {
  274. while (ctx.L.GetChar ()) {
  275. if (ctx.L.input_char >= '0' && ctx.L.input_char <= '9') {
  276. ctx.L.string_buffer.Append ((char) ctx.L.input_char);
  277. continue;
  278. }
  279. if (ctx.L.input_char == ' ' ||
  280. ctx.L.input_char >= '\t' && ctx.L.input_char <= '\r') {
  281. ctx.Return = true;
  282. ctx.NextState = 1;
  283. return true;
  284. }
  285. switch (ctx.L.input_char) {
  286. case ',':
  287. case ']':
  288. case '}':
  289. ctx.L.UngetChar ();
  290. ctx.Return = true;
  291. ctx.NextState = 1;
  292. return true;
  293. case '.':
  294. ctx.L.string_buffer.Append ((char) ctx.L.input_char);
  295. ctx.NextState = 5;
  296. return true;
  297. case 'e':
  298. case 'E':
  299. ctx.L.string_buffer.Append ((char) ctx.L.input_char);
  300. ctx.NextState = 7;
  301. return true;
  302. default:
  303. return false;
  304. }
  305. }
  306. return true;
  307. }
  308. private static bool State4 (FsmContext ctx)
  309. {
  310. ctx.L.GetChar ();
  311. if (ctx.L.input_char == ' ' ||
  312. ctx.L.input_char >= '\t' && ctx.L.input_char <= '\r') {
  313. ctx.Return = true;
  314. ctx.NextState = 1;
  315. return true;
  316. }
  317. switch (ctx.L.input_char) {
  318. case ',':
  319. case ']':
  320. case '}':
  321. ctx.L.UngetChar ();
  322. ctx.Return = true;
  323. ctx.NextState = 1;
  324. return true;
  325. case '.':
  326. ctx.L.string_buffer.Append ((char) ctx.L.input_char);
  327. ctx.NextState = 5;
  328. return true;
  329. case 'e':
  330. case 'E':
  331. ctx.L.string_buffer.Append ((char) ctx.L.input_char);
  332. ctx.NextState = 7;
  333. return true;
  334. case -1:
  335. return true;
  336. default:
  337. return false;
  338. }
  339. }
  340. private static bool State5 (FsmContext ctx)
  341. {
  342. ctx.L.GetChar ();
  343. if (ctx.L.input_char >= '0' && ctx.L.input_char <= '9') {
  344. ctx.L.string_buffer.Append ((char) ctx.L.input_char);
  345. ctx.NextState = 6;
  346. return true;
  347. }
  348. if (ctx.L.input_char == -1)
  349. return true;
  350. return false;
  351. }
  352. private static bool State6 (FsmContext ctx)
  353. {
  354. while (ctx.L.GetChar ()) {
  355. if (ctx.L.input_char >= '0' && ctx.L.input_char <= '9') {
  356. ctx.L.string_buffer.Append ((char) ctx.L.input_char);
  357. continue;
  358. }
  359. if (ctx.L.input_char == ' ' ||
  360. ctx.L.input_char >= '\t' && ctx.L.input_char <= '\r') {
  361. ctx.Return = true;
  362. ctx.NextState = 1;
  363. return true;
  364. }
  365. switch (ctx.L.input_char) {
  366. case ',':
  367. case ']':
  368. case '}':
  369. ctx.L.UngetChar ();
  370. ctx.Return = true;
  371. ctx.NextState = 1;
  372. return true;
  373. case 'e':
  374. case 'E':
  375. ctx.L.string_buffer.Append ((char) ctx.L.input_char);
  376. ctx.NextState = 7;
  377. return true;
  378. default:
  379. return false;
  380. }
  381. }
  382. return true;
  383. }
  384. private static bool State7 (FsmContext ctx)
  385. {
  386. ctx.L.GetChar ();
  387. if (ctx.L.input_char >= '0' && ctx.L.input_char<= '9') {
  388. ctx.L.string_buffer.Append ((char) ctx.L.input_char);
  389. ctx.NextState = 8;
  390. return true;
  391. }
  392. switch (ctx.L.input_char) {
  393. case '+':
  394. case '-':
  395. ctx.L.string_buffer.Append ((char) ctx.L.input_char);
  396. ctx.NextState = 8;
  397. return true;
  398. case -1:
  399. return true;
  400. default:
  401. return false;
  402. }
  403. }
  404. private static bool State8 (FsmContext ctx)
  405. {
  406. while (ctx.L.GetChar ()) {
  407. if (ctx.L.input_char >= '0' && ctx.L.input_char<= '9') {
  408. ctx.L.string_buffer.Append ((char) ctx.L.input_char);
  409. continue;
  410. }
  411. if (ctx.L.input_char == ' ' ||
  412. ctx.L.input_char >= '\t' && ctx.L.input_char<= '\r') {
  413. ctx.Return = true;
  414. ctx.NextState = 1;
  415. return true;
  416. }
  417. switch (ctx.L.input_char) {
  418. case ',':
  419. case ']':
  420. case '}':
  421. ctx.L.UngetChar ();
  422. ctx.Return = true;
  423. ctx.NextState = 1;
  424. return true;
  425. default:
  426. return false;
  427. }
  428. }
  429. return true;
  430. }
  431. private static bool State9 (FsmContext ctx)
  432. {
  433. ctx.L.GetChar ();
  434. switch (ctx.L.input_char) {
  435. case 'r':
  436. ctx.NextState = 10;
  437. return true;
  438. case -1:
  439. return true;
  440. default:
  441. return false;
  442. }
  443. }
  444. private static bool State10 (FsmContext ctx)
  445. {
  446. ctx.L.GetChar ();
  447. switch (ctx.L.input_char) {
  448. case 'u':
  449. ctx.NextState = 11;
  450. return true;
  451. case -1:
  452. return true;
  453. default:
  454. return false;
  455. }
  456. }
  457. private static bool State11 (FsmContext ctx)
  458. {
  459. ctx.L.GetChar ();
  460. switch (ctx.L.input_char) {
  461. case 'e':
  462. ctx.Return = true;
  463. ctx.NextState = 1;
  464. return true;
  465. case -1:
  466. return true;
  467. default:
  468. return false;
  469. }
  470. }
  471. private static bool State12 (FsmContext ctx)
  472. {
  473. ctx.L.GetChar ();
  474. switch (ctx.L.input_char) {
  475. case 'a':
  476. ctx.NextState = 13;
  477. return true;
  478. case -1:
  479. return true;
  480. default:
  481. return false;
  482. }
  483. }
  484. private static bool State13 (FsmContext ctx)
  485. {
  486. ctx.L.GetChar ();
  487. switch (ctx.L.input_char) {
  488. case 'l':
  489. ctx.NextState = 14;
  490. return true;
  491. case -1:
  492. return true;
  493. default:
  494. return false;
  495. }
  496. }
  497. private static bool State14 (FsmContext ctx)
  498. {
  499. ctx.L.GetChar ();
  500. switch (ctx.L.input_char) {
  501. case 's':
  502. ctx.NextState = 15;
  503. return true;
  504. case -1:
  505. return true;
  506. default:
  507. return false;
  508. }
  509. }
  510. private static bool State15 (FsmContext ctx)
  511. {
  512. ctx.L.GetChar ();
  513. switch (ctx.L.input_char) {
  514. case 'e':
  515. ctx.Return = true;
  516. ctx.NextState = 1;
  517. return true;
  518. case -1:
  519. return true;
  520. default:
  521. return false;
  522. }
  523. }
  524. private static bool State16 (FsmContext ctx)
  525. {
  526. ctx.L.GetChar ();
  527. switch (ctx.L.input_char) {
  528. case 'u':
  529. ctx.NextState = 17;
  530. return true;
  531. case -1:
  532. return true;
  533. default:
  534. return false;
  535. }
  536. }
  537. private static bool State17 (FsmContext ctx)
  538. {
  539. ctx.L.GetChar ();
  540. switch (ctx.L.input_char) {
  541. case 'l':
  542. ctx.NextState = 18;
  543. return true;
  544. case -1:
  545. return true;
  546. default:
  547. return false;
  548. }
  549. }
  550. private static bool State18 (FsmContext ctx)
  551. {
  552. ctx.L.GetChar ();
  553. switch (ctx.L.input_char) {
  554. case 'l':
  555. ctx.Return = true;
  556. ctx.NextState = 1;
  557. return true;
  558. case -1:
  559. return true;
  560. default:
  561. return false;
  562. }
  563. }
  564. private static bool State19 (FsmContext ctx)
  565. {
  566. while (ctx.L.GetChar ()) {
  567. switch (ctx.L.input_char) {
  568. case '"':
  569. ctx.L.UngetChar ();
  570. ctx.Return = true;
  571. ctx.NextState = 20;
  572. return true;
  573. case '\\':
  574. ctx.StateStack = 19;
  575. ctx.NextState = 21;
  576. return true;
  577. default:
  578. ctx.L.string_buffer.Append ((char) ctx.L.input_char);
  579. continue;
  580. }
  581. }
  582. return true;
  583. }
  584. private static bool State20 (FsmContext ctx)
  585. {
  586. ctx.L.GetChar ();
  587. switch (ctx.L.input_char) {
  588. case '"':
  589. ctx.Return = true;
  590. ctx.NextState = 1;
  591. return true;
  592. case -1:
  593. return true;
  594. default:
  595. return false;
  596. }
  597. }
  598. private static bool State21 (FsmContext ctx)
  599. {
  600. ctx.L.GetChar ();
  601. switch (ctx.L.input_char) {
  602. case 'u':
  603. ctx.NextState = 22;
  604. return true;
  605. case '"':
  606. case '\'':
  607. case '/':
  608. case '\\':
  609. case 'b':
  610. case 'f':
  611. case 'n':
  612. case 'r':
  613. case 't':
  614. ctx.L.string_buffer.Append (
  615. ProcessEscChar (ctx.L.input_char));
  616. ctx.NextState = ctx.StateStack;
  617. return true;
  618. case -1:
  619. return true;
  620. default:
  621. return false;
  622. }
  623. }
  624. private static bool State22 (FsmContext ctx)
  625. {
  626. int counter = 0;
  627. int mult = 4096;
  628. ctx.L.unichar = 0;
  629. while (ctx.L.GetChar ()) {
  630. if (ctx.L.input_char >= '0' && ctx.L.input_char <= '9' ||
  631. ctx.L.input_char >= 'A' && ctx.L.input_char <= 'F' ||
  632. ctx.L.input_char >= 'a' && ctx.L.input_char <= 'f') {
  633. ctx.L.unichar += HexValue (ctx.L.input_char) * mult;
  634. counter++;
  635. mult /= 16;
  636. if (counter == 4) {
  637. ctx.L.string_buffer.Append (
  638. Convert.ToChar (ctx.L.unichar));
  639. ctx.NextState = ctx.StateStack;
  640. return true;
  641. }
  642. continue;
  643. }
  644. return false;
  645. }
  646. return true;
  647. }
  648. private static bool State23 (FsmContext ctx)
  649. {
  650. while (ctx.L.GetChar ()) {
  651. switch (ctx.L.input_char) {
  652. case '\'':
  653. ctx.L.UngetChar ();
  654. ctx.Return = true;
  655. ctx.NextState = 24;
  656. return true;
  657. case '\\':
  658. ctx.StateStack = 23;
  659. ctx.NextState = 21;
  660. return true;
  661. default:
  662. ctx.L.string_buffer.Append ((char) ctx.L.input_char);
  663. continue;
  664. }
  665. }
  666. return true;
  667. }
  668. private static bool State24 (FsmContext ctx)
  669. {
  670. ctx.L.GetChar ();
  671. switch (ctx.L.input_char) {
  672. case '\'':
  673. ctx.L.input_char = '"';
  674. ctx.Return = true;
  675. ctx.NextState = 1;
  676. return true;
  677. case -1:
  678. return true;
  679. default:
  680. return false;
  681. }
  682. }
  683. private static bool State25 (FsmContext ctx)
  684. {
  685. ctx.L.GetChar ();
  686. switch (ctx.L.input_char) {
  687. case '*':
  688. ctx.NextState = 27;
  689. return true;
  690. case '/':
  691. ctx.NextState = 26;
  692. return true;
  693. case -1:
  694. return true;
  695. default:
  696. return false;
  697. }
  698. }
  699. private static bool State26 (FsmContext ctx)
  700. {
  701. while (ctx.L.GetChar ()) {
  702. if (ctx.L.input_char == '\n') {
  703. ctx.NextState = 1;
  704. return true;
  705. }
  706. }
  707. return true;
  708. }
  709. private static bool State27 (FsmContext ctx)
  710. {
  711. while (ctx.L.GetChar ()) {
  712. if (ctx.L.input_char == '*') {
  713. ctx.NextState = 28;
  714. return true;
  715. }
  716. }
  717. return true;
  718. }
  719. private static bool State28 (FsmContext ctx)
  720. {
  721. while (ctx.L.GetChar ()) {
  722. if (ctx.L.input_char == '*')
  723. continue;
  724. if (ctx.L.input_char == '/') {
  725. ctx.NextState = 1;
  726. return true;
  727. }
  728. ctx.NextState = 27;
  729. return true;
  730. }
  731. return true;
  732. }
  733. #endregion
  734. private bool GetChar ()
  735. {
  736. if ((input_char = NextChar ()) != -1)
  737. return true;
  738. end_of_input = true;
  739. return false;
  740. }
  741. private int NextChar ()
  742. {
  743. if (input_buffer != 0) {
  744. int tmp = input_buffer;
  745. input_buffer = 0;
  746. return tmp;
  747. }
  748. return reader.Read ();
  749. }
  750. public bool NextToken ()
  751. {
  752. StateHandler handler;
  753. fsm_context.Return = false;
  754. while (true) {
  755. handler = fsm_handler_table[state - 1];
  756. if (! handler (fsm_context))
  757. throw new JsonException (input_char);
  758. if (end_of_input && state != 1)
  759. {
  760. fsm_context.Return = true;
  761. }
  762. else if (end_of_input)
  763. return false;
  764. if (fsm_context.Return) {
  765. string_value = string_buffer.ToString ();
  766. string_buffer.Remove (0, string_buffer.Length);
  767. token = fsm_return_table[state - 1];
  768. if (token == (int) ParserToken.Char)
  769. token = input_char;
  770. state = fsm_context.NextState;
  771. return true;
  772. }
  773. state = fsm_context.NextState;
  774. }
  775. }
  776. private void UngetChar ()
  777. {
  778. input_buffer = input_char;
  779. }
  780. }
  781. }