您的位置:首页 > 其它

git存储机制

2017-05-11 11:52 134 查看
现在项目基本都采用git来进行版本控制,最近比较好奇git的存储机制到底是怎么样的,研究了一下

简单介绍git最重要的算法(SHA-1)

通过git log查看,会发现都会有一个40个字符组成的字符串,这个字符串是通过SHA-1算法计算出来的字符串

SHA-1算法:两个不同的内容进行计算出来的值(消息摘要)理论上来说是不重复的(基于目前来说)

git的存储机制详解

先介绍下git的一个命令:git cat-file,查看消息摘要的详细内容;用的时候经常会带上 -p 参数

研究过程(基于我本地的一个版本库)

先通过 git log 找到一个commitId,通过 git cat-file 查看
git cat-file -p 71d8f2a8aecfc84b2a72814f525c76c128face53


tree b346468f50d856cc0a6089e4fe260b4f72c914e5
parent 5987828df851c3d93775e8a1eb49b8d709fd1fb5
author xx <xxx> 1489540261 +0800
committer xxx <xxx> 1489540267 +0800


从这里看出来一个 commit 指向一个 tree (一个tree管理一些tree和一些blob),接下来继续看这个tree到底是什么

继续 git cat-file
git cat-file -p b346468f50d856cc0a6089e4fe260b4f72c914e5


100644 blob e1b5186c600616e89692c94f64f4ed2e525fab23    .gitignore
100644 blob 2572cca5762d11828c4a296bcca7ded879f4929a    LICENSE
100644 blob 7ba68141ca2199ab83d3160f700d0e4343298468    README.md
100644 blob ac8522fb58c89951af0089cb090a56f9856c05b0    a.txt
100644 blob 9b285c5c555323213ce7865e536d09e597268706    pom.xml
040000 tree 5165230a25966bca6377f32f80750b0640a9de02    src


上边的结果有blob和tree:这个时候blob通常是一个文件,tree是一个目录

那先来看看blob类型:
git cat-file -p e1b5186c600616e89692c94f64f4ed2e525fab23
,这个时候看到的是一个文件的内容:

txt

*.class

target/

java-common-utils.iml

.idea/


为什么是这样的呢,因为git通过e1b5186c600616e89692c94f64f4ed2e525fab23指向了.gitignore文件,而这个文件的内容被压缩成另一个文件,这些文件保存在项目的.git目录下的objects目录下,git的cat-file命令将blob还原成原有的文件内容了。网上有压缩的算法

再来看看tree类型:
git cat-file -p 5165230a25966bca6377f32f80750b0640a9de02


txt

040000 tree 857c7710f03f0b9d33d3110273f525416ee310a6  main

040000 tree b63ccc7fa9ced1d7b84fd5de194a85fe66016bec  test


可以看到还是两个tree,可以一直cat-file下去知道没有tree

总结

git对文件的比对是通过文件内容的SHA-1消息摘要进行对比是否有更改,所以速度会非常快;
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  git 版本控制