python用类实现文章敏感词的过滤方法示例
2019-10-27 18:05
3163 查看
过滤一遍并将敏感词替换之后剩余字符串中新组成了敏感词语,这种情况就要用递归来解决,直到过滤替换之后的结果和过滤之前一样时才算结束
第一步:建立一个敏感词库(.txt文本)
第二步:编写代码在文章中过滤敏感词(递归实现)
# -*- coding: utf-8 -*- # author 代序春秋 import os import chardet # 获取文件目录和绝对路径 curr_dir = os.path.dirname(os.path.abspath(__file__)) # os.path.join()拼接路径 sensitive_word_stock_path = os.path.join(curr_dir, 'sensitive_word_stock.txt') # 获取存放敏感字库的路径 # print(sensitive_word_stock_path) class ArticleFilter(object): # 实现文章敏感词过滤 def filter_replace(self, string): # string = string.decode("gbk") # 存放敏感词的列表 filtered_words = [] # 打开敏感词库读取敏感字 with open(sensitive_word_stock_path) as filtered_words_txt: lines = filtered_words_txt.readlines() for line in lines: # strip() 方法用于移除字符串头尾指定的字符(默认为空格或换行符)或字符序列。 filtered_words.append(line.strip()) # 输出过滤好之后的文章 print("过滤之后的文字:" + self.replace_words(filtered_words, string)) # 实现敏感词的替换,替换为* def replace_words(self, filtered_words, string): # 保留新字符串 new_string = string # 从列表中取出敏感词 for words in filtered_words: # 判断敏感词是否在文章中 if words in string: # 如果在则用*替换(几个字替换几个*) new_string = string.replace(words, "*" * len(words)) # 当替换好的文章(字符串)与被替换的文章(字符串)相同时,结束递归,返回替换好的文章(字符串) if new_string == string: # 返回替换好的文章(字符串) return new_string # 如果不相同则继续替换(递归函数自己调用自己) else: # 递归函数自己调用自己 return self.replace_words(filtered_words, new_string) def main(): while True: string = input("请输入一段文字:") run = ArticleFilter() run.filter_replace(string) continue if __name__ == '__main__': main()
运行结果:
以上就是本文的全部内容,希望对大家的学习有所帮助
您可能感兴趣的文章:
相关文章推荐
- PHP实现的敏感词过滤方法示例
- python 实现敏感词过滤的方法
- Python 实现王者荣耀中的敏感词过滤示例
- 这篇文章主要介绍了Python使用函数默认值实现函数静态变量的方法,是很实用的功能
- python访问mysql数据库的实现方法(2则示例)
- Python实现合并同一个文件夹下所有txt文件的方法示例
- python数组过滤实现方法
- Python实现字典去除重复的方法示例
- Python实现找出数组中第2大数字的方法示例
- Python实现求解一元二次方程的方法示例
- php敏感词过滤的简单实现方法
- Python实现对象转换为xml的方法示例
- Python对字符串实现去重操作的方法示例
- Python实现嵌套列表去重方法示例
- Python实现按中文排序的方法示例
- Python下载网络文本数据到本地内存的四种实现方法示例
- Python实现将数据写入netCDF4中的方法示例
- Python实现pdf文档转txt的方法示例
- Python如何实现守护进程的方法示例
- JAVA过滤标签实现将html内容转换为文本的方法示例