您的位置:首页 > 其它

用.net的正则表达式对文章进行拆句处理

2008-02-26 10:48 357 查看
首先要根据语种,来判断断句的符号和规则,这里要提一下,对正则表达式一些限定符运用:

1、使用正则表达式要引用 using System.Text.RegularExpressions; 这个命名空间

2、Regex.Escape 可以对你的 pattern串进行处理,把正则表达式的的限定符前加上“/”符号,但是如果pattern中有“|”,那么会变成“/|”这样会使你的pattern不正确,所以Escape这个函数,最好自己重写。

pattern处理好接下来要进行拆句了

用 Regex.Split还是用Matches?

split进行操作时往往会把分割符给吃掉,如果你想保存完整的句子,那么我建议使用Matches

这里往往使用的pattern还是split那么,你得到的只是分割符的位置,可以利用Match的Index属性和Length进行断句,千万不要忘记最后一个匹配结果后面,还有一句是文件最后的句子。

注:这里拆句,我建议先拆段落再拆句,这样比较精确。

如果有正则表达式的讨论可以email或留言给我。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: