stop_words.go 12 KB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190191192193194195196197198199200201202203204205206207208209210211212213214215216217218219220221222223224225226227228229230231232233234235236237238239240241242243244245246247248249250251252253254255256257258259260261262263264265266267268269270271272273274275276277278279280281282283284285286287288289290291292293294295296297298299300301302303304305306307308309310311312313314315316317318319320321322323324325326327328329330331332333334335336337338339340341342343344345346347348349350351352353354355356357358359360361362363364365366367368369370371372373374375376377378379380381382383384385386387388389390391392393394395396397398399400401402403404405406407408409410411412413414415416417418419420421422423424425426427428429430431432433434435436437438439440441442443444445446447448449450451452453454455456457458459460461462463464465466467468469470471472473474475476477478479480481482483484485486487488489490491492493494495496497498499500501502503504505506507508509510511512513514515516517518519520521522523524525526527528529530531532533534535536537538539540541542543544545546547548549550551552553554555556557558559560561562563564565566567568569570571572573574575576577578579580581582583584585586587588589590591592593594595596597598599600601602603604605606607608609610611612613614615616617618619620621622623624625626627628629630631632633634635636637638639640641642643644645646647648649650651652653654655656657658659660661662663664665666667668669670671672673674675676677678679680681682683684685686687688689690691692693694695696697698699700701702703704705706707708709710711712713714715716717718719720721722723724725726727728729730731732733734735736737738739740741742743744745746747748749750751752753754755756757758759760761762763764765766767768769770771772773774775776777778779780781782783784785786787788789790791792793794795796797798799800801802803804805806807808809810811812813814815816817818819820821822823824825826827828829830831832833834835836837838839840841842843844845846847848849850851852853854855856857858859860861862863864865866867868869870871
  1. package sub_timeline_fixer
  2. import "sort"
  3. type StopWordsPair struct {
  4. Name string
  5. Count int
  6. }
  7. type StopWordsPairList []StopWordsPair
  8. func (a StopWordsPairList) Len() int { return len(a) }
  9. func (a StopWordsPairList) Less(i, j int) bool { return a[i].Count < a[j].Count }
  10. func (a StopWordsPairList) Swap(i, j int) { a[i], a[j] = a[j], a[i] }
  11. func sortMapByValue(m map[string]int) StopWordsPairList {
  12. p := make(StopWordsPairList, len(m))
  13. i := 0
  14. for k, v := range m {
  15. p[i] = StopWordsPair{k, v}
  16. i++
  17. }
  18. sort.Sort(sort.Reverse(p))
  19. return p
  20. }
  21. var EnStopWords = []string{"a", "about", "above", "above", "across", "after", "afterwards", "again", "against", "all", "almost", "alone", "along", "already", "also", "although", "always", "am", "among", "amongst", "amoungst", "amount", "an", "and", "another", "any", "anyhow", "anyone", "anything", "anyway", "anywhere", "are", "around", "as", "at", "back", "be", "became", "because", "become", "becomes", "becoming", "been", "before", "beforehand", "behind", "being", "below", "beside", "besides", "between", "beyond", "bill", "both", "bottom", "but", "by", "call", "can", "cannot", "cant", "co", "con", "could", "couldnt", "cry", "de", "describe", "detail", "do", "done", "down", "due", "during", "each", "eg", "eight", "either", "eleven", "else", "elsewhere", "empty", "enough", "etc", "even", "ever", "every", "everyone", "everything", "everywhere", "except", "few", "fifteen", "fify", "fill", "find", "fire", "first", "five", "for", "former", "formerly", "forty", "found", "four", "from", "front", "full", "further", "get", "give", "go", "had", "has", "hasnt", "have", "he", "hence", "her", "here", "hereafter", "hereby", "herein", "hereupon", "hers", "herself", "him", "himself", "his", "how", "however", "hundred", "ie", "if", "in", "inc", "indeed", "interest", "into", "is", "it", "its", "itself", "keep", "last", "latter", "latterly", "least", "less", "ltd", "made", "many", "may", "me", "meanwhile", "might", "mill", "mine", "more", "moreover", "most", "mostly", "move", "much", "must", "my", "myself", "name", "namely", "neither", "never", "nevertheless", "next", "nine", "no", "nobody", "none", "noone", "nor", "not", "nothing", "now", "nowhere", "of", "off", "often", "on", "once", "one", "only", "onto", "or", "other", "others", "otherwise", "our", "ours", "ourselves", "out", "over", "own", "part", "per", "perhaps", "please", "put", "rather", "re", "same", "see", "seem", "seemed", "seeming", "seems", "serious", "several", "she", "should", "show", "side", "since", "sincere", "six", "sixty", "so", "some", "somehow", "someone", "something", "sometime", "sometimes", "somewhere", "still", "such", "system", "take", "ten", "than", "that", "the", "their", "them", "themselves", "then", "thence", "there", "thereafter", "thereby", "therefore", "therein", "thereupon", "these", "they", "thickv", "thin", "third", "this", "those", "though", "three", "through", "throughout", "thru", "thus", "to", "together", "too", "top", "toward", "towards", "twelve", "twenty", "two", "un", "under", "until", "up", "upon", "us", "very", "via", "was", "we", "well", "were", "what", "whatever", "when", "whence", "whenever", "where", "whereafter", "whereas", "whereby", "wherein", "whereupon", "wherever", "whether", "which", "while", "whither", "who", "whoever", "whole", "whom", "whose", "why", "will", "with", "within", "without", "would", "yet", "you", "your", "yours", "yourself", "yourselves"}
  22. var CnStopWords = []string{
  23. "一",
  24. "一下",
  25. "一些",
  26. "一切",
  27. "一则",
  28. "一天",
  29. "一定",
  30. "一方面",
  31. "一旦",
  32. "一时",
  33. "一来",
  34. "一样",
  35. "一次",
  36. "一片",
  37. "一直",
  38. "一致",
  39. "一般",
  40. "一起",
  41. "一边",
  42. "一面",
  43. "万一",
  44. "上下",
  45. "上升",
  46. "上去",
  47. "上来",
  48. "上述",
  49. "上面",
  50. "下列",
  51. "下去",
  52. "下来",
  53. "下面",
  54. "不一",
  55. "不久",
  56. "不仅",
  57. "不会",
  58. "不但",
  59. "不光",
  60. "不单",
  61. "不变",
  62. "不只",
  63. "不可",
  64. "不同",
  65. "不够",
  66. "不如",
  67. "不得",
  68. "不怕",
  69. "不惟",
  70. "不成",
  71. "不拘",
  72. "不敢",
  73. "不断",
  74. "不是",
  75. "不比",
  76. "不然",
  77. "不特",
  78. "不独",
  79. "不管",
  80. "不能",
  81. "不要",
  82. "不论",
  83. "不足",
  84. "不过",
  85. "不问",
  86. "与",
  87. "与其",
  88. "与否",
  89. "与此同时",
  90. "专门",
  91. "且",
  92. "两者",
  93. "严格",
  94. "严重",
  95. "个",
  96. "个人",
  97. "个别",
  98. "中小",
  99. "中间",
  100. "丰富",
  101. "临",
  102. "为",
  103. "为主",
  104. "为了",
  105. "为什么",
  106. "为什麽",
  107. "为何",
  108. "为着",
  109. "主张",
  110. "主要",
  111. "举行",
  112. "乃",
  113. "乃至",
  114. "么",
  115. "之",
  116. "之一",
  117. "之前",
  118. "之后",
  119. "之後",
  120. "之所以",
  121. "之类",
  122. "乌乎",
  123. "乎",
  124. "乘",
  125. "也",
  126. "也好",
  127. "也是",
  128. "也罢",
  129. "了",
  130. "了解",
  131. "争取",
  132. "于",
  133. "于是",
  134. "于是乎",
  135. "云云",
  136. "互相",
  137. "产生",
  138. "人们",
  139. "人家",
  140. "什么",
  141. "什么样",
  142. "什麽",
  143. "今后",
  144. "今天",
  145. "今年",
  146. "今後",
  147. "仍然",
  148. "从",
  149. "从事",
  150. "从而",
  151. "他",
  152. "他人",
  153. "他们",
  154. "他的",
  155. "代替",
  156. "以",
  157. "以上",
  158. "以下",
  159. "以为",
  160. "以便",
  161. "以免",
  162. "以前",
  163. "以及",
  164. "以后",
  165. "以外",
  166. "以後",
  167. "以来",
  168. "以至",
  169. "以至于",
  170. "以致",
  171. "们",
  172. "任",
  173. "任何",
  174. "任凭",
  175. "任务",
  176. "企图",
  177. "伟大",
  178. "似乎",
  179. "似的",
  180. "但",
  181. "但是",
  182. "何",
  183. "何况",
  184. "何处",
  185. "何时",
  186. "作为",
  187. "你",
  188. "你们",
  189. "你的",
  190. "使得",
  191. "使用",
  192. "例如",
  193. "依",
  194. "依照",
  195. "依靠",
  196. "促进",
  197. "保持",
  198. "俺",
  199. "俺们",
  200. "倘",
  201. "倘使",
  202. "倘或",
  203. "倘然",
  204. "倘若",
  205. "假使",
  206. "假如",
  207. "假若",
  208. "做到",
  209. "像",
  210. "允许",
  211. "充分",
  212. "先后",
  213. "先後",
  214. "先生",
  215. "全部",
  216. "全面",
  217. "兮",
  218. "共同",
  219. "关于",
  220. "其",
  221. "其一",
  222. "其中",
  223. "其二",
  224. "其他",
  225. "其余",
  226. "其它",
  227. "其实",
  228. "其次",
  229. "具体",
  230. "具体地说",
  231. "具体说来",
  232. "具有",
  233. "再者",
  234. "再说",
  235. "冒",
  236. "冲",
  237. "决定",
  238. "况且",
  239. "准备",
  240. "几",
  241. "几乎",
  242. "几时",
  243. "凭",
  244. "凭借",
  245. "出去",
  246. "出来",
  247. "出现",
  248. "分别",
  249. "则",
  250. "别",
  251. "别的",
  252. "别说",
  253. "到",
  254. "前后",
  255. "前者",
  256. "前进",
  257. "前面",
  258. "加之",
  259. "加以",
  260. "加入",
  261. "加强",
  262. "十分",
  263. "即",
  264. "即令",
  265. "即使",
  266. "即便",
  267. "即或",
  268. "即若",
  269. "却不",
  270. "原来",
  271. "又",
  272. "及",
  273. "及其",
  274. "及时",
  275. "及至",
  276. "双方",
  277. "反之",
  278. "反应",
  279. "反映",
  280. "反过来",
  281. "反过来说",
  282. "取得",
  283. "受到",
  284. "变成",
  285. "另",
  286. "另一方面",
  287. "另外",
  288. "只是",
  289. "只有",
  290. "只要",
  291. "只限",
  292. "叫",
  293. "叫做",
  294. "召开",
  295. "叮咚",
  296. "可",
  297. "可以",
  298. "可是",
  299. "可能",
  300. "可见",
  301. "各",
  302. "各个",
  303. "各人",
  304. "各位",
  305. "各地",
  306. "各种",
  307. "各级",
  308. "各自",
  309. "合理",
  310. "同",
  311. "同一",
  312. "同时",
  313. "同样",
  314. "后来",
  315. "后面",
  316. "向",
  317. "向着",
  318. "吓",
  319. "吗",
  320. "否则",
  321. "吧",
  322. "吧哒",
  323. "吱",
  324. "呀",
  325. "呃",
  326. "呕",
  327. "呗",
  328. "呜",
  329. "呜呼",
  330. "呢",
  331. "周围",
  332. "呵",
  333. "呸",
  334. "呼哧",
  335. "咋",
  336. "和",
  337. "咚",
  338. "咦",
  339. "咱",
  340. "咱们",
  341. "咳",
  342. "哇",
  343. "哈",
  344. "哈哈",
  345. "哉",
  346. "哎",
  347. "哎呀",
  348. "哎哟",
  349. "哗",
  350. "哟",
  351. "哦",
  352. "哩",
  353. "哪",
  354. "哪个",
  355. "哪些",
  356. "哪儿",
  357. "哪天",
  358. "哪年",
  359. "哪怕",
  360. "哪样",
  361. "哪边",
  362. "哪里",
  363. "哼",
  364. "哼唷",
  365. "唉",
  366. "啊",
  367. "啐",
  368. "啥",
  369. "啦",
  370. "啪达",
  371. "喂",
  372. "喏",
  373. "喔唷",
  374. "嗡嗡",
  375. "嗬",
  376. "嗯",
  377. "嗳",
  378. "嘎",
  379. "嘎登",
  380. "嘘",
  381. "嘛",
  382. "嘻",
  383. "嘿",
  384. "因",
  385. "因为",
  386. "因此",
  387. "因而",
  388. "固然",
  389. "在",
  390. "在下",
  391. "地",
  392. "坚决",
  393. "坚持",
  394. "基本",
  395. "处理",
  396. "复杂",
  397. "多",
  398. "多少",
  399. "多数",
  400. "多次",
  401. "大力",
  402. "大多数",
  403. "大大",
  404. "大家",
  405. "大批",
  406. "大约",
  407. "大量",
  408. "失去",
  409. "她",
  410. "她们",
  411. "她的",
  412. "好的",
  413. "好象",
  414. "如",
  415. "如上所述",
  416. "如下",
  417. "如何",
  418. "如其",
  419. "如果",
  420. "如此",
  421. "如若",
  422. "存在",
  423. "宁",
  424. "宁可",
  425. "宁愿",
  426. "宁肯",
  427. "它",
  428. "它们",
  429. "它们的",
  430. "它的",
  431. "安全",
  432. "完全",
  433. "完成",
  434. "实现",
  435. "实际",
  436. "宣布",
  437. "容易",
  438. "密切",
  439. "对",
  440. "对于",
  441. "对应",
  442. "将",
  443. "少数",
  444. "尔后",
  445. "尚且",
  446. "尤其",
  447. "就",
  448. "就是",
  449. "就是说",
  450. "尽",
  451. "尽管",
  452. "属于",
  453. "岂但",
  454. "左右",
  455. "巨大",
  456. "巩固",
  457. "己",
  458. "已经",
  459. "帮助",
  460. "常常",
  461. "并",
  462. "并不",
  463. "并不是",
  464. "并且",
  465. "并没有",
  466. "广大",
  467. "广泛",
  468. "应当",
  469. "应用",
  470. "应该",
  471. "开外",
  472. "开始",
  473. "开展",
  474. "引起",
  475. "强烈",
  476. "强调",
  477. "归",
  478. "当",
  479. "当前",
  480. "当时",
  481. "当然",
  482. "当着",
  483. "形成",
  484. "彻底",
  485. "彼",
  486. "彼此",
  487. "往",
  488. "往往",
  489. "待",
  490. "後来",
  491. "後面",
  492. "得",
  493. "得出",
  494. "得到",
  495. "心里",
  496. "必然",
  497. "必要",
  498. "必须",
  499. "怎",
  500. "怎么",
  501. "怎么办",
  502. "怎么样",
  503. "怎样",
  504. "怎麽",
  505. "总之",
  506. "总是",
  507. "总的来看",
  508. "总的来说",
  509. "总的说来",
  510. "总结",
  511. "总而言之",
  512. "恰恰相反",
  513. "您",
  514. "意思",
  515. "愿意",
  516. "慢说",
  517. "成为",
  518. "我",
  519. "我们",
  520. "我的",
  521. "或",
  522. "或是",
  523. "或者",
  524. "战斗",
  525. "所",
  526. "所以",
  527. "所有",
  528. "所谓",
  529. "打",
  530. "扩大",
  531. "把",
  532. "抑或",
  533. "拿",
  534. "按",
  535. "按照",
  536. "换句话说",
  537. "换言之",
  538. "据",
  539. "掌握",
  540. "接着",
  541. "接著",
  542. "故",
  543. "故此",
  544. "整个",
  545. "方便",
  546. "方面",
  547. "旁人",
  548. "无宁",
  549. "无法",
  550. "无论",
  551. "既",
  552. "既是",
  553. "既然",
  554. "时候",
  555. "明显",
  556. "明确",
  557. "是",
  558. "是否",
  559. "是的",
  560. "显然",
  561. "显著",
  562. "普通",
  563. "普遍",
  564. "更加",
  565. "曾经",
  566. "替",
  567. "最后",
  568. "最大",
  569. "最好",
  570. "最後",
  571. "最近",
  572. "最高",
  573. "有",
  574. "有些",
  575. "有关",
  576. "有利",
  577. "有力",
  578. "有所",
  579. "有效",
  580. "有时",
  581. "有点",
  582. "有的",
  583. "有着",
  584. "有著",
  585. "望",
  586. "朝",
  587. "朝着",
  588. "本",
  589. "本着",
  590. "来",
  591. "来着",
  592. "极了",
  593. "构成",
  594. "果然",
  595. "果真",
  596. "某",
  597. "某个",
  598. "某些",
  599. "根据",
  600. "根本",
  601. "欢迎",
  602. "正在",
  603. "正如",
  604. "正常",
  605. "此",
  606. "此外",
  607. "此时",
  608. "此间",
  609. "毋宁",
  610. "每",
  611. "每个",
  612. "每天",
  613. "每年",
  614. "每当",
  615. "比",
  616. "比如",
  617. "比方",
  618. "比较",
  619. "毫不",
  620. "没有",
  621. "沿",
  622. "沿着",
  623. "注意",
  624. "深入",
  625. "清楚",
  626. "满足",
  627. "漫说",
  628. "焉",
  629. "然则",
  630. "然后",
  631. "然後",
  632. "然而",
  633. "照",
  634. "照着",
  635. "特别是",
  636. "特殊",
  637. "特点",
  638. "现代",
  639. "现在",
  640. "甚么",
  641. "甚而",
  642. "甚至",
  643. "用",
  644. "由",
  645. "由于",
  646. "由此可见",
  647. "的",
  648. "的话",
  649. "目前",
  650. "直到",
  651. "直接",
  652. "相似",
  653. "相信",
  654. "相反",
  655. "相同",
  656. "相对",
  657. "相对而言",
  658. "相应",
  659. "相当",
  660. "相等",
  661. "省得",
  662. "看出",
  663. "看到",
  664. "看来",
  665. "看看",
  666. "看见",
  667. "真是",
  668. "真正",
  669. "着",
  670. "着呢",
  671. "矣",
  672. "知道",
  673. "确定",
  674. "离",
  675. "积极",
  676. "移动",
  677. "突出",
  678. "突然",
  679. "立即",
  680. "第",
  681. "等",
  682. "等等",
  683. "管",
  684. "紧接着",
  685. "纵",
  686. "纵令",
  687. "纵使",
  688. "纵然",
  689. "练习",
  690. "组成",
  691. "经",
  692. "经常",
  693. "经过",
  694. "结合",
  695. "结果",
  696. "给",
  697. "绝对",
  698. "继续",
  699. "继而",
  700. "维持",
  701. "综上所述",
  702. "罢了",
  703. "考虑",
  704. "者",
  705. "而",
  706. "而且",
  707. "而况",
  708. "而外",
  709. "而已",
  710. "而是",
  711. "而言",
  712. "联系",
  713. "能",
  714. "能否",
  715. "能够",
  716. "腾",
  717. "自",
  718. "自个儿",
  719. "自从",
  720. "自各儿",
  721. "自家",
  722. "自己",
  723. "自身",
  724. "至",
  725. "至于",
  726. "良好",
  727. "若",
  728. "若是",
  729. "若非",
  730. "范围",
  731. "莫若",
  732. "获得",
  733. "虽",
  734. "虽则",
  735. "虽然",
  736. "虽说",
  737. "行为",
  738. "行动",
  739. "表明",
  740. "表示",
  741. "被",
  742. "要",
  743. "要不",
  744. "要不是",
  745. "要不然",
  746. "要么",
  747. "要是",
  748. "要求",
  749. "规定",
  750. "觉得",
  751. "认为",
  752. "认真",
  753. "认识",
  754. "让",
  755. "许多",
  756. "论",
  757. "设使",
  758. "设若",
  759. "该",
  760. "说明",
  761. "诸位",
  762. "谁",
  763. "谁知",
  764. "赶",
  765. "起",
  766. "起来",
  767. "起见",
  768. "趁",
  769. "趁着",
  770. "越是",
  771. "跟",
  772. "转动",
  773. "转变",
  774. "转贴",
  775. "较",
  776. "较之",
  777. "边",
  778. "达到",
  779. "迅速",
  780. "过",
  781. "过去",
  782. "过来",
  783. "运用",
  784. "还是",
  785. "还有",
  786. "这",
  787. "这个",
  788. "这么",
  789. "这么些",
  790. "这么样",
  791. "这么点儿",
  792. "这些",
  793. "这会儿",
  794. "这儿",
  795. "这就是说",
  796. "这时",
  797. "这样",
  798. "这点",
  799. "这种",
  800. "这边",
  801. "这里",
  802. "这麽",
  803. "进入",
  804. "进步",
  805. "进而",
  806. "进行",
  807. "连",
  808. "连同",
  809. "适应",
  810. "适当",
  811. "适用",
  812. "逐步",
  813. "逐渐",
  814. "通常",
  815. "通过",
  816. "造成",
  817. "遇到",
  818. "遭到",
  819. "避免",
  820. "那",
  821. "那个",
  822. "那么",
  823. "那么些",
  824. "那么样",
  825. "那些",
  826. "那会儿",
  827. "那儿",
  828. "那时",
  829. "那样",
  830. "那边",
  831. "那里",
  832. "那麽",
  833. "部分",
  834. "鄙人",
  835. "采取",
  836. "里面",
  837. "重大",
  838. "重新",
  839. "重要",
  840. "鉴于",
  841. "问题",
  842. "防止",
  843. "阿",
  844. "附近",
  845. "限制",
  846. "除",
  847. "除了",
  848. "除此之外",
  849. "除非",
  850. "随",
  851. "随着",
  852. "随著",
  853. "集中",
  854. "需要",
  855. "非但",
  856. "非常",
  857. "非徒",
  858. "靠",
  859. "顺",
  860. "顺着",
  861. "首先",
  862. "高兴",
  863. "是不是",
  864. "说说",
  865. }