歡迎來到 常識詞典網(wǎng) , 一個專業(yè)的常識知識學習網(wǎng)站!
[ Ctrl + D 鍵 ]收藏本站
答案 1:
中文分詞是個基礎(chǔ)問題,研究成果已有不少,我揀幾個我自己覺得好的吧。>@張磊提到的mmseg是我自己最喜歡的分詞方法,簡單、高效、實用、效果還不錯。tec-nology.c-tsai.org/mmseg/我給它起了個名字,叫做“3段回溯式方法”,即每次從一個完整的句子里,按照從左向右的順序,識別出多種不同的3個詞的組合;然后根據(jù)下面的4條消歧規(guī)則,確定最佳的備選詞組合;選擇備選詞組合中的第1個詞,作為1次迭代的分詞結(jié)果;剩余的2個詞繼續(xù)進行下一輪的分詞運算。采用這種辦法的好處是,為傳統(tǒng)的前向最大匹配算法加入了上下文信息,解決了其每次選詞只考慮詞本身,而忽視上下文相關(guān)詞的問題。4條消歧規(guī)則包括,1)備選詞組合的長度之和最大。2)備選詞組合的平均詞長最大;3)備選詞組合的詞長變化最?。?)備選詞組合中,單字詞的出現(xiàn)頻率統(tǒng)計值最高。
CRF方法是目前公認的效果最好的分詞算法。但,具體效果是否好,也依賴于你使用的訓練模型。nlp.stanford.edu/software...
我認識一個做搜索解決方案的朋友,他們公司提供了CRF和mmseg的開源實現(xiàn)coreseek.cn/opensour...
其實還可以使用專業(yè)公司的解決方案,比如海量和中科院分詞的收費版本,也花不了多少錢。集中精力找到你自己產(chǎn)品獨特的價值所在。
下一篇:國內(nèi)有哪些優(yōu)秀的硬件產(chǎn)品設(shè)計師? 下一篇 【方向鍵 ( → )下一篇】
上一篇:多國部隊只出動空軍,不出動地面部隊,如何才能擊敗卡扎菲? 上一篇 【方向鍵 ( ← )上一篇】
快搜