
一 背景
二 go-containerregistry
三 基本介面
1 映象基本概念
-
ImageIndex, 根據 OCI 規範,是為了相容多架構(amd64, arm64)映象而創造出來的資料結構, 我們可以在一個ImageIndex 裡面關聯多個映象,使用同一個映象tag,客戶端(docker,ctr)會根據客戶端所在的作業系統的基礎架構拉取對應架構的映象下來
-
Image Manifest 基本上對應了一個映象,裡面包含了一個映象的所有layers digest,客戶端拉取映象的時候一般都是先獲取manifest 檔案,在根據 manifest 檔案裡面的內容拉取映象各個層(tar+gzip)
-
Image Config 跟 ImageManifest 是一一對應的關係,Image Config 主要包含一些 映象的基本配置,例如 建立時間,作者,該映象的基礎架構,映象層的 diffID(未壓縮的 ChangeSet),ChainID 之類的資訊。一般在宿主機上執行 docker image 看到的ImageID就是 ImageConfig 的hash值。
-
layer 就是映象層,映象層資訊不包含任何的執行時資訊(環境變數等)只包含檔案系統的資訊。映象是透過最底層 rootfs 加上各層的 changeset(對上一層的 add, update, delete 操作)組合而成的。
-
layer diffid 是未壓縮的層的hash值,常見於 本地環境,使用 <docker inspect "docker-id"> 看到的便是diffid。因為客戶端一般下載 ImageConfig, ImageConfig 裡面是引用的diffid。
-
layer digest 是壓縮後的層的hash值,常見於映象倉庫 使用 <docker manifest inspect "xxx:xx" > 看到的layers 一般都是 digest. 因為 manifest 引用都是 layer digest。
-
兩者沒有可以直接轉換的方式,目前的唯一方式就是按照順序來對應。
-
用一張圖來總結一下。

// ImageIndex 定義與 OCI ImageIndex 互動的介面
type ImageIndex interface {
// 返回當前 imageIndex 的 MediaType
MediaType() (types.MediaType, error)
// 返回這個 ImageIndex manifest 的 sha256值。
Digest() (Hash, error)
// 返回這個 ImageIndex manifest 的大小
Size() (int64, error)
// 返回這個 ImageIndex 的 manifest 結構
IndexManifest() (*IndexManifest, error)
// 返回這個 ImageIndex 的 manifest 位元組陣列
RawManifest() ([]byte, error)
// 返回這個 ImageIndex 引用的 Image
Image(Hash) (Image, error)
// 返回這個 ImageIndex 引用的 ImageIndex
ImageIndex(Hash) (ImageIndex, error)
}
// Image 定義了與 OCI Image 互動的介面
type Image interface {
// 返回了當前映象的所有層級, 最老/最基礎的層在陣列的前面,最上面/最新的層在陣列的後面
Layers() ([]Layer, error)
// 返回當前 image 的 MediaType
MediaType() (types.MediaType, error)
// 返回這個 Image manifest 的大小
Size() (int64, error)
// 返回這個映象 ConfigFile 的hash值,也是這個映象的 ImageID
ConfigName() (Hash, error)
// 返回這個映象的 ConfigFile
ConfigFile() (*ConfigFile, error)
// 返回這個映象的 ConfigFile 的位元組陣列
RawConfigFile() ([]byte, error)
// 返回這個Image Manifest 的sha256 值
Digest() (Hash, error)
// 返回這個Image Manifest
Manifest() (*Manifest, error)
// 返回 ImageManifest 的bytes陣列
RawManifest() ([]byte, error)
// 返回這個映象中的某一層layer, 根據 digest(壓縮後的hash值) 來查詢
LayerByDigest(Hash) (Layer, error)
// 返回這個映象中的某一層layer, 根據 diffid (未壓縮的hash值) 來查詢
LayerByDiffID(Hash) (Layer, error)
}
// Layer 定義了訪問 OCI Image 特定 Layer 的介面
type Layer interface {
// 返回了壓縮後的layer的sha256 值
Digest() (Hash, error)
// 返回了 未壓縮的layer 的sha256值.
DiffID() (Hash, error)
// 返回了壓縮後的映象層
Compressed() (io.ReadCloser, error)
// 返回了未壓縮的映象層
Uncompressed() (io.ReadCloser, error)
// 返回了壓縮後鏡像層的大小
Size() (int64, error)
// 返回當前 layer 的 MediaType
MediaType() (types.MediaType, error)
}
四 獲取映象相關元資訊
package main
import (
"github.com/google/go-containerregistry/pkg/authn"
"github.com/google/go-containerregistry/pkg/name"
"github.com/google/go-containerregistry/pkg/v1/remote"
)
funcmain() {
ref, err := name.ParseReference("xxx")
if err != nil {
panic(err)
}
tryRemote(context.TODO(), ref, GetDockerOption())
if err != nil {
panic(err)
}
// do stuff with img
}
type DockerOption struct {
// Auth
UserName string
Password string
// RegistryToken is a bearer token to be sent to a registry
RegistryToken string
// ECR
AwsAccessKey string
AwsSecretKey string
AwsSessionToken string
AwsRegion string
// GCP
GcpCredPath string
InsecureSkipTLSVerify bool
NonSSL bool
SkipPing bool// this is ignored now
Timeout time.Duration
}
funcGetDockerOption()(types.DockerOption, error) {
cfg := DockerConfig{}
if err := env.Parse(&cfg); err != nil {
return types.DockerOption{}, fmt.Errorf("unable to parse environment variables: %w", err)
}
return types.DockerOption{
UserName: cfg.UserName,
Password: cfg.Password,
RegistryToken: cfg.RegistryToken,
InsecureSkipTLSVerify: cfg.Insecure,
NonSSL: cfg.NonSSL,
}, nil
}
functryRemote(ctx context.Context, ref name.Reference, option types.DockerOption)(v1.Image, extender, error) {
var remoteOpts []remote.Option
if option.InsecureSkipTLSVerify {
t := &http.Transport{
TLSClientConfig: &tls.Config{InsecureSkipVerify: true},
}
remoteOpts = append(remoteOpts, remote.WithTransport(t))
}
domain := ref.Context().RegistryStr()
auth := token.GetToken(ctx, domain, option)
if auth.Username != "" && auth.Password != "" {
remoteOpts = append(remoteOpts, remote.WithAuth(&auth))
} elseif option.RegistryToken != "" {
bearer := authn.Bearer{Token: option.RegistryToken}
remoteOpts = append(remoteOpts, remote.WithAuth(&bearer))
} else {
remoteOpts = append(remoteOpts, remote.WithAuthFromKeychain(authn.DefaultKeychain))
}
desc, err := remote.Get(ref, remoteOpts...)
if err != nil {
returnnil, nil, err
}
img, err := desc.Image()
if err != nil {
returnnil, nil, err
}
// Return v1.Image if the image is found in Docker Registry
return img, remoteExtender{
ref: implicitReference{ref: ref},
descriptor: desc,
}, nil
}
-
remote.Get() 方法只會實際拉取映象的manifestList/manifest,並不會拉取整個映象。
-
desc.Image() 方法會判斷 remote.Get() 返回的媒體型別。如果是映象的話直接返回一個 Image interface, 如果是 manifest list 的情況會解析當前宿主機的架構,並且返回指定架構對應的映象。 同樣這裡並不會拉取映象。
-
所有的資料都是lazy load。只有需要的時候才會去獲取。
五 讀取映象中系統軟體的資訊
// tarOnceOpener 讀取檔案一次並共享內容,以便分析器可以共享資料
functarOnceOpener(r io.Reader)func()([]byte, error) {
var once sync.Once
var b []byte
var err error
returnfunc()([]byte, error) {
once.Do(func() {
b, err = ioutil.ReadAll(r)
})
if err != nil {
returnnil, xerrors.Errorf("unable to read tar file: %w", err)
}
return b, nil
}
}
// 該方法主要是遍歷整個 io stream,首先解析出檔案的元資訊 (path, prefix,suffix), 然後呼叫 analyzeFn 方法解析檔案內容
funcWalkLayerTar(layer io.Reader, analyzeFn WalkFunc)([]string, []string, error) {
var opqDirs, whFiles []string
var result *AnalysisResult
tr := tar.NewReader(layer)
opq := ".wh..wh..opq"
wh := ".wh."
for {
hdr, err := tr.Next()
if err == io.EOF {
break
}
if err != nil {
returnnil, nil, xerrors.Errorf("failed to extract the archive: %w", err)
}
filePath := hdr.Name
filePath = strings.TrimLeft(filepath.Clean(filePath), "/")
fileDir, fileName := filepath.Split(filePath)
// e.g. etc/.wh..wh..opq
if opq == fileName {
opqDirs = append(opqDirs, fileDir)
continue
}
// etc/.wh.hostname
if strings.HasPrefix(fileName, wh) {
name := strings.TrimPrefix(fileName, wh)
fpath := filepath.Join(fileDir, name)
whFiles = append(whFiles, fpath)
continue
}
if hdr.Typeflag == tar.TypeSymlink || hdr.Typeflag == tar.TypeLink || hdr.Typeflag == tar.TypeReg {
analyzeFn(filePath, hdr.FileInfo(), tarOnceOpener(tr), result)
if err != nil {
returnnil, nil, xerrors.Errorf("failed to analyze file: %w", err)
}
}
}
return opqDirs, whFiles, nil
}
// 呼叫不同的driver 對同一個檔案進行解析
funcanalyzeFn(filePath string, info os.FileInfo, opener analyzer.Opener,result *AnalysisResult)error {
if info.IsDir() {
returnnil, nil
}
var wg sync.WaitGroup
for _, d := range drivers {
// filepath extracted from tar file doesn't have the prefix "/"
if !d.Required(strings.TrimLeft(filePath, "/"), info) {
continue
}
b, err := opener()
if err != nil {
returnnil, xerrors.Errorf("unable to open a file (%s): %w", filePath, err)
}
if err = limit.Acquire(ctx, 1); err != nil {
returnnil, xerrors.Errorf("semaphore acquire: %w", err)
}
wg.Add(1)
gofunc(a analyzer, target AnalysisTarget) {
defer limit.Release(1)
defer wg.Done()
ret, err := a.Analyze(target)
if err != nil && !xerrors.Is(err, aos.AnalyzeOSError) {
log.Logger.Debugf("Analysis error: %s", err)
returnnil, err
}
result.Merge(ret)
}(d, AnalysisTarget{Dir: dir, FilePath: filePath, Content: b})
}
return result, nil
}
// drivers: 用於解析tar包中的檔案
func(a alpinePkgAnalyzer)Analyze(target analyzer.AnalysisTarget)(*analyzer.AnalysisResult, error) {
scanner := bufio.NewScanner(bytes.NewBuffer(target.Content))
var pkg types.Package
var version string
for scanner.Scan() {
line := scanner.Text()
// check package if paragraph end
iflen(line) < 2 {
if analyzer.CheckPackage(&pkg) {
pkgs = append(pkgs, pkg)
}
pkg = types.Package{}
continue
}
switch line[:2] {
case"P:":
pkg.Name = line[2:]
case"V:":
version = string(line[2:])
if !apkVersion.Valid(version) {
log.Printf("Invalid Version Found : OS %s, Package %s, Version %s", "alpine", pkg.Name, version)
continue
}
pkg.Version = version
case"o:":
origin := line[2:]
pkg.SrcName = origin
pkg.SrcVersion = version
}
}
// in case of last paragraph
if analyzer.CheckPackage(&pkg) {
pkgs = append(pkgs, pkg)
}
parsedPkgs := a.uniquePkgs(pkgs)
return &analyzer.AnalysisResult{
PackageInfos: []types.PackageInfo{
{
FilePath: target.FilePath,
Packages: parsedPkgs,
},
},
}, nil
}
-
.wh..wh..opq: 代表這個檔案所在的目錄被刪除了
-
.wh.:以這個詞綴開頭的檔案說明這個檔案在當前層已經被刪除
1 Analyze(target analyzer.AnalysisTarget)
-
首先我們呼叫 bufio.scanner.Scan() 方法, 他會不斷掃描檔案中的資訊,當返回false 的時候代表掃描到檔案結尾,如果這時在掃描過程中沒有錯誤,則 scanner 的 Err 欄位為 nil
-
我們透過 scanner.Text() 獲取掃描檔案的每一行,擷取每一行的前兩個字元,得出 apk package 的 package name & package version。
六 讀取映象中的java 應用資訊
-
如果發現 檔案是jar包
-
初始化 zip reader, 開始讀取 jar 包內容
-
開始透過 jar包名稱進行解析 artifact的名稱和版本, 例如: spring-core-5.3.4-SNAPSHOT.jar => sprint-core, 5.3.4-SNAPSHOT
-
從 zip reader 讀取被壓縮的檔案
-
判斷檔案型別
-
呼叫parseArtifact進行遞迴解析 -
將返回的innerLibs放到 libs物件中 -
從 MANIFEST.MF 檔案中解析出manifest返回 -
從 properties 檔案中解析 groupid, artifactid, version 並返回 -
將上述資訊放到 libs 物件中 -
如果是 pom.properties -
如果是 MANIFEST.MF -
如果是 jar/war/ear 等檔案 -
如果 找不到 artifactid or groupid
-
根據jar sha256查詢對應的包資訊 -
找到直接返回 -
返回解析出來的libs
funcparseArtifact(c conf, fileName string, r io.ReadCloser)([]types.Library, error) {
defer r.Close()
b, err := ioutil.ReadAll(r)
if err != nil {
returnnil, xerrors.Errorf("unable to read the jar file: %w", err)
}
zr, err := zip.NewReader(bytes.NewReader(b), int64(len(b)))
if err != nil {
returnnil, xerrors.Errorf("zip error: %w", err)
}
fileName = filepath.Base(fileName)
fileProps := parseFileName(fileName)
var libs []types.Library
var m manifest
var foundPomProps bool
for _, fileInJar := range zr.File {
switch {
case filepath.Base(fileInJar.Name) == "pom.properties":
props, err := parsePomProperties(fileInJar)
if err != nil {
returnnil, xerrors.Errorf("failed to parse %s: %w", fileInJar.Name, err)
}
libs = append(libs, props.library())
if fileProps.artifactID == props.artifactID && fileProps.version == props.version {
foundPomProps = true
}
case filepath.Base(fileInJar.Name) == "MANIFEST.MF":
m, err = parseManifest(fileInJar)
if err != nil {
returnnil, xerrors.Errorf("failed to parse MANIFEST.MF: %w", err)
}
case isArtifact(fileInJar.Name):
fr, err := fileInJar.Open()
if err != nil {
returnnil, xerrors.Errorf("unable to open %s: %w", fileInJar.Name, err)
}
// 遞迴解析 jar/war/ear
innerLibs, err := parseArtifact(c, fileInJar.Name, fr)
if err != nil {
returnnil, xerrors.Errorf("failed to parse %s: %w", fileInJar.Name, err)
}
libs = append(libs, innerLibs...)
}
}
// 如果找到了 pom.properties 檔案,則直接返回libs物件
if foundPomProps {
return libs, nil
}
// 如果沒有找到 pom.properties 檔案,則解析MANIFEST.MF 檔案
manifestProps := m.properties()
if manifestProps.valid() {
// 這裡即使找到了 artifactid or groupid 也有可能是非法的。這裡會訪問 maven等倉庫確認 jar包是否真正存在
if ok, _ := exists(c, manifestProps); ok {
returnappend(libs, manifestProps.library()), nil
}
}
p, err := searchBySHA1(c, b)
if err == nil {
returnappend(libs, p.library()), nil
} elseif !xerrors.Is(err, ArtifactNotFoundErr) {
returnnil, xerrors.Errorf("failed to search by SHA1: %w", err)
}
return libs, nil
}
達摩院—趣味視覺AI訓練營
點選閱讀原文檢視詳情!
關鍵詞
檔案
方法
資訊
物件
方式