您的位置：首页 > Web前端 > JavaScript

信息标记的三种形式：XML,JSON,YAML

2020-03-06 16:13 916 查看

信息标记的三种形式：XML,JSON,YAML
1.标记后的信息可以形成信息组织结构，增加了信息的难度
2，标记后的信息可用来通信、存储或展示
3.标记的结构与信息一样具有重要价值
4.标记后的信息有利于程序理解和运用，更有利于人对信息的利用和深度理解

HTML：hyper text markup language,超文本标记语言，是www信息组织的主要形式，能将声音、图像、视频等超文本的信息嵌入到文本中HTML通过预定义的<>…</>标签形式组织不同类型的信息

XML：扩展标记语言，采用以标签为主来构建信息、表达信息的方式

JSON：JavaScript语言，面向对象信息的一种表达方式，是有类型的键值对key:value构建的信息表达方式，对信息的定义叫键，如name，对值的描述叫value在
JSON类型中，键和值都需要通过增加双引号来表达它是字符串的形式，如果值不是字符串，而是像123,2020这样的数字，则不用使用双引号，直接写数字即可，一个键有多个值的时候采用[,]的形式，键值对可以嵌套，如：
‘key’:‘value’
‘key’:[1,2,3]
‘key’:{‘subkey’:‘subvalue’}
‘key’:[‘value1’,‘value2’]

YAML:无类型键值对key:value来表达信息，用缩进表示所属
如：
name:beijing
name:
subname:…
用-表示并列关系：name: -beijing -shanghai
用|表示整块数据，用#表示注释

三种标记信息的比较：

数据的爬取：针对给定的url进行爬取，并不爬取其他的url，叫定向爬取
爬取信息时：（1）首先要确定可行性，即提取返回的信息是否写在了html页面的代码中（因为有些数据是通过javascript脚本语言生成的）（2）要爬取的网站是否提供了robots协议，如在网站根目录下的robots.txt，如https://www.baidu.com/robots.txt，若是robots.txt为空，则表示允许所有爬虫无限制爬取
一些常见的网站的robots地址:

http采用url作为网络定位资源的标识，格式：http://host[:post][path]
host:合法的Internet主机域名或IP地址post:端口号，可省略，默认为80，path：请求资源的路径
HTTP协议对资源的操作:

url是通过http协议存取资源的Internet路径，一个url对应一个数据资源

点赞
收藏
分享
文章举报

h...h... 发布了17 篇原创文章 · 获赞 0 · 访问量 244 私信关注

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航