{ Golang }

  • TIDB源码学习笔记-DDL-CreateColumn时不同状态对Insert语句的影响

    | /

    Add Column会schema会经历none, delete-only, write-only, write-reorganization, public五个状态

    当运行insert语句时,只有处于public状态的节点才会执行成功,其他状态的节点都会无法找到该列。

    原因如下:

    insert语句经过parse, 会由ExecuetStmt()->Compile()->Optimize()->optimize()->build()中的planBuilder.buildInsert()生成查询计划。

    对于INSERT … VALUES … 会进入buildValuesListOfInsert()中:

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    func (b *PlanBuilder) buildInsert(ctx context.Context, insert *ast.InsertStmt) (Plan, error) {
    ...

    if len(insert.Setlist) > 0 {
    // Branch for `INSERT ... SET ...`.
    err := b.buildSetValuesOfInsert(ctx, insert, insertPlan, mockTablePlan, checkRefColumn)
    if err != nil {
    return nil, err
    }
    } else if len(insert.Lists) > 0 {
    // Branch for `INSERT ... VALUES ...`.
    err := b.buildValuesListOfInsert(ctx, insert, insertPlan, mockTablePlan, checkRefColumn)
    if err != nil {
    return nil, err
    }
    } else {
    // Branch for `INSERT ... SELECT ...`.
    err := b.buildSelectPlanOfInsert(ctx, insert, insertPlan)
    if err != nil {
    return nil, err
    }
    }

    ...
    }

    在buildValuesListOfInsert()中会由PlanBuilder.getAffectCols()确定实际要插入的列。

    1
    2
    3
    4
    5
    func (b *PlanBuilder) buildValuesListOfInsert(ctx context.Context, insert *ast.InsertStmt, insertPlan *Insert, mockTablePlan *LogicalTableDual, checkRefColumn func(n ast.Node) ast.Node) error {
    affectedValuesCols, err := b.getAffectCols(insert, insertPlan)

    ...
    }
    planbuilder.go:2415:getAffectCols():
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    func (b *PlanBuilder) getAffectCols(insertStmt *ast.InsertStmt, insertPlan *Insert) (affectedValuesCols []*table.Column, err error) {
    if len(insertStmt.Columns) > 0 {
    // This branch is for the following scenarios:
    // 1. `INSERT INTO tbl_name (col_name [, col_name] ...) {VALUES | VALUE} (value_list) [, (value_list)] ...`,
    // 2. `INSERT INTO tbl_name (col_name [, col_name] ...) SELECT ...`.
    colName := make([]string, 0, len(insertStmt.Columns))
    for _, col := range insertStmt.Columns {
    colName = append(colName, col.Name.O)
    }
    var missingColName string
    affectedValuesCols, missingColName = table.FindCols(insertPlan.Table.VisibleCols(), colName, insertPlan.Table.Meta().PKIsHandle)
    if missingColName != "" {
    return nil, ErrUnknownColumn.GenWithStackByArgs(missingColName, clauseMsg[fieldList])
    }
    } else if len(insertStmt.Setlist) == 0 {
    // This branch is for the following scenarios:
    // 1. `INSERT INTO tbl_name {VALUES | VALUE} (value_list) [, (value_list)] ...`,
    // 2. `INSERT INTO tbl_name SELECT ...`.
    affectedValuesCols = insertPlan.Table.VisibleCols()
    }
    return affectedValuesCols, nil
    }

    在确立AffectCols时是依据table的VisibleCols来确定的:

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    // VisibleCols implements table.Table VisibleCols interface.
    func (t *TableCommon) VisibleCols() []*table.Column {
    if len(t.VisibleColumns) > 0 {
    return t.VisibleColumns
    }
    return t.getCols(visible)
    }

    func (t *TableCommon) getCols(mode getColsMode) []*table.Column {
    columns := make([]*table.Column, 0, len(t.Columns))
    for _, col := range t.Columns {
    if col.State != model.StatePublic {
    continue
    }
    if (mode == visible && col.Hidden) || (mode == hidden && !col.Hidden) {
    continue
    }
    columns = append(columns, col)
    }
    return columns
    }

    根据代码中的判断条件,如果列的状态不为StatePublic,那么就不会被归结为VisibleCols(), 也就不会被getAffectCols()所感知,Inser这一列的操作自然会报错。

  • TIDB源码学习笔记-Key编码后的比较

    | /

    key经过编码之后是字节数组,两个字节数组的比较方案如下所示:

    判断两个字节数组的地址是否一样,如果一样则说明在同一段内存存储,直接判断长度,长度小的key编码较小。

    如果首地址不一样,则按照两个数组的较小长度逐个元素比较,如有不同直接按照元素大小返回。

    当在较小长度内所有元素都相同,则较大长度字节数组大于较小长度数组。如果两者长度相同且所有元素相同,则数组大小相同。

    example

    例如有如下两个表:

    table1, tableId为1, 第三列value含有索引,indexID为1

    1
    2
    3
    4
    rowid, name,        role, value
    1, "TiDB", "SQL Layer", 10
    2, "TiKV", "KV Engine", 20
    3, "PD", "Manager", 30

    table2, tableId为2, 第二列到第四列都含有索引,indexID从1到4

    1
    2
    3
    4
    rowid,   name, school, age, graduate date, personID(unique)
    1, "XiaoMing", "A", 19, 2020-06-20, 210283
    2, "XiaoHong", "C", 19, 2019-03-20, 270447
    3, "XiaoWang", "B", 18, 2018-07-01, 159668

    则其在Tikv中排布情况如下所示:

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    t1_i1_intFlag{10}_1 --> null
    t1_i1_intFlag{20}_2 --> null
    t1_i1_intFlag{30}_3 --> null
    t1_r1 --> ["TiDB", "SQL Layer", 10]
    t1_r2 --> ["TiKV", "KV Engine", 20]
    t1_r3 --> ["PD", "Manager", 30]
    t2_i1_bytesFlag{A}_1 --> null
    t2_i1_bytesFlag{B}_3 --> null
    t2_i1_bytesFlag{C}_2 --> null
    t2_i2_uintFlag{18}_3 --> null
    t2_i2_uintFlag{19}_1 --> null
    t2_i2_uintFlag{19}_2 --> null
    t2_i3_uintFlag{2018-07-01}_3 --> null
    t2_i3_uintFlag{2019-03-20}_2 --> null
    t2_i3_uintFlag{2020-06-20}_1 --> null
    t2_i4_uintFlag{159668} --> 3
    t2_i4_uintFlag{210283} --> 1
    t2_i4_uintFlag{270447} --> 2
    t2_r1 --> ["XiaoMing", "A", 19, 2020-06-20]
    t2_r2 --> ["XiaoHong", "B", 19, 2019-03-20]
    t2_r3 --> ["XiaoWang", "C", 18, 2018-07-01]

    tikv是一个全局有序的分布式Key-Value引擎,因此,通过以上的设计可以让同一个表下同一个indexID的索引按照ColumnsValue分布到一段连续的区间上.这个columnsValue的编码方式主要在codec模块中。

    columnsValue在进行实际的编码时,会在编码开始前添加一个codeFlag,如下所示:

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    const (
    NilFlag byte = 0
    bytesFlag byte = 1
    compactBytesFlag byte = 2
    intFlag byte = 3
    uintFlag byte = 4
    floatFlag byte = 5
    decimalFlag byte = 6
    durationFlag byte = 7
    varintFlag byte = 8
    uvarintFlag byte = 9
    jsonFlag byte = 10
    maxFlag byte = 250
    )

    按照本人目前的理解,主要有两个作用:

    • 一是用来识别不同数据类型的编码方案。比如int64 compareble就会用intFlag标记,string compareable就会用bytesFlag来标记。

    • 二是方便统一不同类型对于边界值处理。在tidb中任何类型都有三个较为特殊的值,Null, MinNotNull, MaxValue.它主要用来表示一些筛选条件的range边界。这三个值的codeFlag是:

    1
    2
    3
    Null       --> NilFlag byte = 0
    MinNotNull --> bytesFlag byte = 1
    MaxValue --> maxFlag byte = 250

    比如 select * from table1 where value < 15 这样一个查询, value的range就是[MinNotNull, 15). 对于这三个特殊值,并不依据具体的类型做编码,而是通过codeFlag这个字节来标识。结合key的编码比较方案,就可以实现对range边界的确定。

    例如

    1
    select from * from table2 where school <= "B" AND school is Not Null

    这样一个查询, 生成的range就是:
    [MaxNotNull, "B"]
    对应到tikv中的key编码就是:
    [t2_i1_bytesFlag, t2_i1_bytesFlag{B}]
    而包含Null的查询:

    1
    select from * from table2 where school <= "B"

    这样一个查询, 生成的range就是:
    [Null, "B"]
    对应到tikv中的key编码就是:
    [t2_i1_NilFlag, t2_i1_bytesFlag{B}]

  • TIDB源码学习笔记-range的生成

    | /

    point

    1
    2
    3
    4
    5
    6
    // Point is the end point of range interval.
    type point struct {
    value types.Datum
    excl bool // exclude
    start bool
    }

    ranger

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    // RangeType is alias for int.
    type RangeType int

    // RangeType constants.
    const (
    IntRangeType RangeType = iota
    ColumnRangeType
    IndexRangeType
    )

    // Range represents a range generated in physical plan building phase.
    type Range struct {
    LowVal []types.Datum
    HighVal []types.Datum

    LowExclude bool // Low value is exclusive.
    HighExclude bool // High value is exclusive.
    }

    // fullRange is (-∞, +∞).
    var fullRange = []point{
    {start: true},
    {value: types.MaxValueDatum()},
    }

    FullIntRange unsigned [0, MaxUint64] signed [MinInt64, MaxInt64]
    FullRange [,MaxValueDatum) [null, +∞)
    FullNotNullRange (MinNotNullDatum, MaxValueDatum) (-∞, +∞)
    NullRange [,] [null, null]

    单列range生成过程

    • 通过builder将expression转化为[]point.主要的转化逻辑如下表所示:
    method return 备注
    buildFromColumn [-inf, 0) (0, +inf] 列名表达式等价于列名为真。
    buildFromConstant nil 或者 fullRange 当常量Eval转化出错,或者常量为Null或者常量为0时,返回nil,否则返回fullRange
    buildFromScalarFunc
    buildFromBinOp a==NULL [,] a==1 [1, 1]
    a!=1 [-inf, 1) (1, +inf])
    a>1 (1, +inf]
    ast.LogicAnd 取交集
    ast.LogicOr 取并集 取交集和取并集通过merge实现,通过flag区分。merge函数的假设:
    a, b 两个区间均已经做过去重
    单个区间序列内部不会有重叠的部分
    buildFromIsTrue [-inf, 0) (0, +inf] 还有包含is not和with null的处理
    buildFromIsFalse [0, 0] 还有包含is not的处理
    buildFromIn a in (1, 2, 3)
    {[1, 1], [2, 2], [3, 3]}
    对每个点生成一个rangePoint,然后排序去重。
    buildFromPatternLike a LIKE ‘abc%’ [abc, abd)
    a LIKE ‘abc_’ (abc, abd)
    找前缀然后再计算起始点和终止点。
    isNull [,]
    buildFromNot 对于Not前缀的处理
    • 通过points2TableRanges和points2Ranges将point转化为range.

      对于TableRange, 会将points中的null移除,同时将MinNotNull转化为MinInt64或者MinUint64, MaxValue转化为MaxInt64或者MaxUint64

      再将point转化为range时,会将point转化为对应的FieldType,并将转化后的数据与原数据作比较,以此来修正point的excl属性,这部分逻辑在convertPoint中。举例 “a > 1.9” 在1.9转化为整形时会变为“a>=2”.

      不同数据的比较逻辑放在datum.go中的CompareDatum中,比较特殊的几个类型的大小关系如下所示:

      • MinNotNullDatum用来表示最小值即-inf
      • MaxValueDatum用来表示最大值即+inf
      • Null < MinNotNull < 其他类型的具体值 < MaxValue

        如果column无Null值,那么会移除[null, null]这样的range.

    • 得到range之后,对于Column,会尝试进行range的裁剪和range的合并

      • range裁剪的应用场景猜测:

        对于string列和bytes列,其有一定长度,比如col1 VarChar(6), 如果range中的端点长度超过这个值,即15,比如col1 > “12345678”,那么这个端点就会被裁剪为 col1 >= “123456”

      • range 合并场景:

        [a, b] [c, d] 如果a <= c 并且b >= c,那么这两个区间就可以合并为[a, max(b, d)]

  • TIDB源码学习笔记-row的编码格式

    | /

    方案一 实现在util/rowcodec

    会记录当前行的空置和非空值数量

    如果总列数大于255,会用uint32存储column id,否则使用byte存储column id.

    会将同一行非空列排布在前面,空值列排布在后面,分别按照column id进行排序。 每一个非空列column id对应一个value.
    空值列的column id对应的value位置没有value重新赋值的操作。

    会有一个notNullIdx来区分非空列和空列的界限。

    最后转化为bytes的结构

    • CodecVer: 1 byte
    • flag: 1 byte : large 1 small 0
    • numNotNullCols: 2 bytes
    • numNullCols: 2 bytes
    • colIDs32: uint32[] 转 byte[], 如果是small则为colIDs byte[]
    • offsets32: uint32[] 转 byte[], 如果是small则为sffsets u16[] 转 byte[]
    • data: byte[]

      方案二

    这套方案比较简单,申请row长度2倍的datum数组,前面用来存储数值,后面用来存储column id 一一对应。

  • TIDB源码学习笔记-基本类型编解码方案

    | /

    TIDB基本类型的编码方案

    TIDB在编码不同的数据类型时会在编码前部添加一个字节的Flag用来区分不同的编码方案。同时,TIDB支持具有Memcomparable特性的编码,Memcomparable是指保证编码前和编码后的比较关系不变。在TIDB中,对于Key的编码都是要求Memcomparable的,而对于Value的编码则不要求Memcomparable,可以采用更节省空间的编码方案。

    在进行编码前,会先依据数据类型预先申请一定尺寸的byte,然后再进行编码。

    如下是目前的Flag,用于标识不同的编码方案

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    const (
    NilFlag byte = 0
    bytesFlag byte = 1
    compactBytesFlag byte = 2
    intFlag byte = 3
    uintFlag byte = 4
    floatFlag byte = 5
    decimalFlag byte = 6
    durationFlag byte = 7
    varintFlag byte = 8
    uvarintFlag byte = 9
    jsonFlag byte = 10
    maxFlag byte = 250
    )

    下表是数据类型与Flag的对应关系以及相应的编码尺寸计算方法,具体的编码方案会在后续一一展开。

    INT64

    comparable

    这种方式保证编码后的二进制排序结果与编码前的是完全相同的。

    编码方法: uint64(num) ^ signMask

    const signMask uint64 = 0x8000000000000000

    signed int binary after code
    1 0000 0000 0000 0001 1000 0000 0000 0001
    0 0000 0000 0000 0001 1000 0000 0000 0001
    -1 1111 1111 1111 1111 0111 1111 1111 1111
    -2 1111 1111 1111 1110 0111 1111 1111 1110

    uncomparable:

    这种方法不能保证编码后是严格有序的。

    编码方法: PutVarint函数

    PutVarint:

    步骤一:左移去掉符号位,如果是负数则对移位后的数取反

    步骤二:将得到的数字从低到高每七位放入一个字节中,字节的第一位表示是否有后续字节。

    举例:

    原始数据 16进制表示 步骤一结果 步骤二结果
    1 0x1 0x02 0x02
    -1 0xffffffffffffffff 0x01 0x01
    128 0x80 0x0100 0x8002
    127 0x7f 0xfe 0xfe01

    Uint64

    comparable

    直接写入二进制

    uncomparable

    将二进制表示从低到高每七位放入一个字节中,字节的第一位表示是否有后续字节,其实就是去掉int64的uncomparable中符号处理那一步后剩下的步骤。

    Float32 Float64

    Go的浮点数是按照IEEE 754浮点数标准存储的,TIDB直接对二进制表示进行操作

    将正浮点数的符号位置1,将负浮点数的二进制表示按位取反

    这样编码后的二进制是先比较符号位,再比较指数位,最后比较小数位,就可以保证编码值是升序的。对于负浮点数的比较因为是进行了取反,所以也能保证是升序的。如果要降序只要将编码值取反即可。

    1
    2
    3
    4
    5
    6
    7
    8
    9
    func encodeFloatToCmpUint64(f float64) uint64 {
    u := math.Float64bits(f)
    if f >= 0 {
    u |= signMask
    } else {
    u = ^u
    }
    return u
    }

    Byte

    comparable

    [group1][marker1]…[groupN][markerN]

    group 是补零之后的8字节切片

    markder = 0xFF - 补零数量

    举例:

    [] -> [0, 0, 0, 0, 0, 0, 0, 0, 247]
    
    [1, 2, 3] -> [1, 2, 3, 0, 0, 0, 0, 0, 250]
    
    [1, 2, 3, 0] -> [1, 2, 3, 0, 0, 0, 0, 0, 251]
    
    [1, 2, 3, 4, 5, 6, 7, 8] -> [1, 2, 3, 4, 5, 6, 7, 8, 255, 0, 0, 0, 0, 0, 0, 0, 0, 247]
    

    uncomparable

    数据长度 + 实际数据的二进制

    String

    如果有排序规则,则使用排序规则得到的Bytes,否则直接用String本身的Bytes

    1
    2
    3
    4
    5
    6
    func encodeString(b []byte, val types.Datum, comparable bool) []byte{
    if collate.NewCollationEnabled() && comparable {
    return encodeBytes(b, collate.GetCollator(val.Collation()).Key(val.GetString()), true)
    }
    return encodeBytes(b, val.GetBytes(), comparable)
    }

    MysqlTime

    先进行时区转化,全部转换为UTC时区后将Time转为uint64,再以uint64的形式进行编码。

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    // ToPackedUint encodes Time to a packed uint64 value.
    //
    // 1 bit 0
    // 17 bits year*13+month (year 0-9999, month 0-12)
    // 5 bits day (0-31)
    // 5 bits hour (0-23)
    // 6 bits minute (0-59)
    // 6 bits second (0-59)
    // 24 bits microseconds (0-999999)
    //
    // Total: 64 bits = 8 bytes
    //
    // 0YYYYYYY.YYYYYYYY.YYdddddh.hhhhmmmm.mmssssss.ffffffff.ffffffff.ffffffff

    MysqlDuration

    duration可能有负值,所以无法直接用string来进行编码,采用的是同Int comparable相同的编码。

    MysqlDecimal

    编码方式: precision + frac + WriteBin函数

    WriteBin: 每 9 位十进制数字包装成 4 个字节. 其中整数和小数部分分别确定所需的存储空间. 如果数字位数为 9 的倍数, 则每 9 位十进制数字各采用 4 个字节进行存储, 对于剩余不足 9 位的数字, 所需的存储空间如下表所示:

    剩余数字位数 存储所需字节数
    0 0
    1-2 1
    3-4 2
    5-6 3
    7-9 4

    举例:

    1234567890.1234

    以9位数字以及小数点为边界,可将decimal类型拆分为如下所示:

    1 234567890 123400000
    

    假设存储位数为有效位数为14,小数位为4,使用16进制表示为三部分:

    00-00-00-01  0D-FB-38-D2  07-5A-EF-40
    

    现在,中间部分已经是被填满,它存储了9位的十进制数字:

    ............  0D-FB-38-D2  ............
    

    第一部分只有一个十进制数字,所以我们可以只用一个字节来存储,而不必浪费四个字节:

    01 0D-FB-38-D2 ............
    

    现在,最后一部分,它是123400000,我们可以用两个字节来存储:

    01 0D-FB-38-D2 04-D2
    

    因此,我们将一个12个字节的数字使用7字节进行了表示,现在需要将最高位反转来得到最后的结果:

    81 0D FB 38 D2 04 D2
    

    如果要表示 -1234567890.1234,需要将各个位取反:

    7E F2 04 C7 2D FB 2D
    

    最高位反转,是为了保证有相同有效位数和有效小数位的DECIMAL类型编码后的二进制具有comparable特性。原因如下:

    首先,最高位的置不影响原先数值的表示,因为不管第一部分剩多少位数字,它永远不会取到最高位,所以正数的DECIMAL类型的comparable可以得到保证。

    其次,通过最高位置1再反转的形式,可以保证所有的负数的二进制编码都小于正数的二进制编码,即保证了正数和负数二进制编码之间的comparable。

    最后,负数编码的comparable则是通过将正数编码所有位取反保证的。

    MysqlEnum MysqlSet MysqlBit BinaryLiteral

    通过各自的ToNumber或者ToInt方法转化为uint64进行编码

    MysqlJSON

    TypeCode + Value

    TypeCode:

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    // TypeCodeObject indicates the JSON is an object.
    TypeCodeObject TypeCode = 0x01
    // TypeCodeArray indicates the JSON is an array.
    TypeCodeArray TypeCode = 0x03
    // TypeCodeLiteral indicates the JSON is a literal.
    TypeCodeLiteral TypeCode = 0x04
    // TypeCodeInt64 indicates the JSON is a signed integer.
    TypeCodeInt64 TypeCode = 0x09
    // TypeCodeUint64 indicates the JSON is a unsigned integer.
    TypeCodeUint64 TypeCode = 0x0a
    // TypeCodeFloat64 indicates the JSON is a double float number.
    TypeCodeFloat64 TypeCode = 0x0b
    // TypeCodeString indicates the JSON is a string.
    TypeCodeString TypeCode = 0x0c

    Value []byte

    Null

    NilFlag

    MinNotNull

    bytesFlag

    MaxValue

    maxFlag

    编码模块位置

    • util/codec
    • tablecodec
    • util/rowcodec