coreseek一元切分形式中英文单词不切分问题ITeye - AG环亚娱乐

coreseek一元切分形式中英文单词不切分问题ITeye

2019年03月24日11时39分49秒 | 作者: 澄邈 | 标签: 一元,形式,英文单词 | 浏览: 597

  网站查找运用coreseek(sphinx),选用的一元分词形式,但依照官方网站的文档阐明,却不支撑英文单词、数字串一元分词,如:光华路SOHO,输入soho中任一字母不能查找出soho;输入soho能够查出,如标题中仅一个字母时,是能够的,如光华路h,输入“h”,能够查出,由此揣度英文单词没有做一元分词索引,细心检查文档:
(http://www.coreseek.cn/products-install/ngram_len_cjk/ 文档地址,此处仅列出首要部分)
#部分文档:

  ngram_chars = U+4E00..U+9FBF, U+3400..U+4DBF, U+20000..U+2A6DF, U+F900..U+FAFF,\
U+2F800..U+2FA1F, U+2E80..U+2EFF, U+2F00..U+2FDF, U+3100..U+312F, U+31A0..U+31BF,\
U+3040..U+309F, U+30A0..U+30FF, U+31F0..U+31FF, U+AC00..U+D7AF, U+1100..U+11FF,\
U+3130..U+318F, U+A000..U+A48F, U+A490..U+A4CF
 
charset_table = U+FF10..U+FF19- 0..9, 0..9, U+FF41..U+FF5A- a..z, U+FF21..U+FF3A- a..z,\
A..Z- a..z, a..z, U+0149, U+017F, U+0138, U+00DF, U+00FF, U+00C0..U+00D6- U+00E0..U+00F6,\ ......略..


# end

  其间: ngram_chars 表明要进行一元字符切分形式的字符集;
  charset_table 表明可被一元字符切分形式认可的有用字符集;

  细心比照字符集最初,发现ngram_chars中没有数字与英文字母的调集,呵呵!总算找到原因了,将charset_table字符集最初:“U+FF10..U+FF19- 0..9,0..9,U+FF41..U+FF5A- a..z,U+FF21..U+FF3A- a..z,A..Z- a..z, a..z,”部分,复制到ngram_char字符集前头如下:
  ngram_chars =U+FF10..U+FF19- 0..9, 0..9, U+FF41..U+FF5A- a..z, U+FF21..U+FF3A- a..z,\
A..Z- a..z, a..z, U+4E00..U+9FBF, U+3400..U+4DBF, U+20000..U+2A6DF, U+F900..U+FAFF,\
U+2F800..U+2FA1F, U+2E80..U+2EFF, U+2F00..U+2FDF, U+3100..U+312F, U+31A0..U+31BF,\
U+3040..U+309F, U+30A0..U+30FF, U+31F0..U+31FF, U+AC00..U+D7AF, U+1100..U+11FF,\
U+3130..U+318F, U+A000..U+A48F, U+A490..U+A4CF
 
charset_table = U+FF10..U+FF19- 0..9, 0..9, U+FF41..U+FF5A- a..z, U+FF21..U+FF3A- a..z,\
A..Z- a..z, a..z, U+0149, U+017F, U+0138, U+00DF, U+00FF, U+00C0..U+00D6- U+00E0..U+00F6,\ ......略..
从头履行索引,问题解决。
版权声明
本文来源于网络,版权归原作者所有,其内容与观点不代表AG环亚娱乐立场。转载文章仅为传播更有价值的信息,如采编人员采编有误或者版权原因,请与我们联系,我们核实后立即修改或删除。

猜您喜欢的文章

阅读排行

  • 1

    Oracle 11g 新特性ITeye

    毛病,指令,修正
  • 2
  • 3

    Oracle发送邮件ITeye

    邮件,发送,服务器
  • 4

    根本存储进程ITeye

    存储,进程,判别
  • 5

    NOSQL之旅ITeye

    咱们,能够,数据库
  • 6
  • 7
  • 8

    pro*c 动态sql二ITeye

    数据,过错,成功
  • 9
  • 10