您的位置:首页 > Web前端 > JavaScript

信息标记的三种形式:XML,JSON,YAML

2020-03-06 16:13 916 查看

信息标记的三种形式:XML,JSON,YAML
1.标记后的信息可以形成信息组织结构,增加了信息的难度
2,标记后的信息可用来通信、存储或展示
3.标记的结构与信息一样具有重要价值
4.标记后的信息有利于程序理解和运用,更有利于人对信息的利用和深度理解

HTML:hyper text markup language,超文本标记语言,是www信息组织的主要形式,能将声音、图像、视频等超文本的信息嵌入到文本中HTML通过预定义的<>…</>标签形式组织不同类型的信息

XML:扩展标记语言,采用以标签为主来构建信息、表达信息的方式

JSON:JavaScript语言,面向对象信息的一种表达方式,是有类型的键值对key:value构建的信息表达方式,对信息的定义叫键,如name,对值的描述叫value在
JSON类型中,键和值都需要通过增加双引号来表达它是字符串的形式,如果值不是字符串,而是像123,2020这样的数字,则不用使用双引号,直接写数字即可,一个键有多个值的时候采用[,]的形式,键值对可以嵌套,如:
‘key’:‘value’
‘key’:[1,2,3]
‘key’:{‘subkey’:‘subvalue’}
‘key’:[‘value1’,‘value2’]

YAML:无类型键值对key:value来表达信息,用缩进表示所属
如:
name:beijing
name:
subname:…
用-表示并列关系:name: -beijing -shanghai
用|表示整块数据,用#表示注释


三种标记信息的比较:


数据的爬取:针对给定的url进行爬取,并不爬取其他的url,叫定向爬取
爬取信息时:(1)首先要确定可行性,即提取返回的信息是否写在了html页面的代码中(因为有些数据是通过javascript脚本语言生成的)(2)要爬取的网站是否提供了robots协议,如在网站根目录下的robots.txt,如https://www.baidu.com/robots.txt,若是robots.txt为空,则表示允许所有爬虫无限制爬取
一些常见的网站的robots地址:

http采用url作为网络定位资源的标识,格式:http://host[:post][path]
host:合法的Internet主机域名或IP地址post:端口号,可省略,默认为80,path:请求资源的路径
HTTP协议对资源的操作:

url是通过http协议存取资源的Internet路径,一个url对应一个数据资源

  • 点赞
  • 收藏
  • 分享
  • 文章举报
h...h... 发布了17 篇原创文章 · 获赞 0 · 访问量 244 私信 关注
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: