用.net的正则表达式对文章进行拆句处理
2008-02-26 10:48
357 查看
首先要根据语种,来判断断句的符号和规则,这里要提一下,对正则表达式一些限定符运用:
1、使用正则表达式要引用 using System.Text.RegularExpressions; 这个命名空间
2、Regex.Escape 可以对你的 pattern串进行处理,把正则表达式的的限定符前加上“/”符号,但是如果pattern中有“|”,那么会变成“/|”这样会使你的pattern不正确,所以Escape这个函数,最好自己重写。
pattern处理好接下来要进行拆句了
用 Regex.Split还是用Matches?
split进行操作时往往会把分割符给吃掉,如果你想保存完整的句子,那么我建议使用Matches
这里往往使用的pattern还是split那么,你得到的只是分割符的位置,可以利用Match的Index属性和Length进行断句,千万不要忘记最后一个匹配结果后面,还有一句是文件最后的句子。
注:这里拆句,我建议先拆段落再拆句,这样比较精确。
如果有正则表达式的讨论可以email或留言给我。
1、使用正则表达式要引用 using System.Text.RegularExpressions; 这个命名空间
2、Regex.Escape 可以对你的 pattern串进行处理,把正则表达式的的限定符前加上“/”符号,但是如果pattern中有“|”,那么会变成“/|”这样会使你的pattern不正确,所以Escape这个函数,最好自己重写。
pattern处理好接下来要进行拆句了
用 Regex.Split还是用Matches?
split进行操作时往往会把分割符给吃掉,如果你想保存完整的句子,那么我建议使用Matches
这里往往使用的pattern还是split那么,你得到的只是分割符的位置,可以利用Match的Index属性和Length进行断句,千万不要忘记最后一个匹配结果后面,还有一句是文件最后的句子。
注:这里拆句,我建议先拆段落再拆句,这样比较精确。
如果有正则表达式的讨论可以email或留言给我。
相关文章推荐
- 正则表达式进行大文件查找时的超时处理
- 正则表达式小脚本(对输入内容进行处理)
- 在Idea中利用正则表达式找出匹配行并捕获内容进行处理
- 正则表达式--小脚本(对输入内容进行处理)
- .net之旅-分隔符的正则表达式处理 (44)
- c# 使用正则表达式对字符串进行处理
- .Net正则表达式处理类图
- 利用正则表达式获取特定文件(如java class)并对其进行处理(如代码统计)
- .net(正则表达式)检查EMAIL
- 一起谈.NET技术,.NET 中的正则表达式
- 利用正则表达式 进行字符的判断
- 如何使用JavaScript和正则表达式进行数据验证
- js与java正则表达式处理字符串问题
- .Net正则表达式专题
- 第十部分 字符串处理和正则表达式---------------
- 正则表达式搭配js轻松处理json文本方便而老古
- .NET开发 正则表达式中的 Bug
- 使用正则表达式进行替换
- 不错的正则表达式文章
- 文章采集html文档的正文提取正则表达式