恋恋风辰官方博客

📋 教学目标

理解TCP粘包问题的本质
掌握QDataStream的工作机制
识别并解决QDataStream读取位置错乱问题
学会编写健壮的网络数据解析代码

一、问题背景

1.1 业务场景

客户端向服务器发送文件上传请求，服务器返回响应。消息格式如下：

┌─────────────┬──────────────┬─────────────┐
│  消息ID(2B) │ 消息长度(4B) │  消息体(N)  │
├─────────────┼──────────────┼─────────────┤
│   0x0001    │   0x000A     │  10字节数据 │
└─────────────┴──────────────┴─────────────┘
        头部(6字节)              消息体

1.2 问题表现

✅ 正常运行：代码工作正常
❌ 打断点调试：解析错误，message_id 和 message_len 都是错误值
⚠️ 现象：断点导致数据累积，触发粘包问题

二、错误代码分析

2.1 原始错误代码

FileTcpMgr::FileTcpMgr(QObject *parent) : QObject(parent),
    _host(""), _port(0), _b_recv_pending(false), 
    _message_id(0), _message_len(0)
{
    QObject::connect(&_socket, &QTcpSocket::readyRead, this, [&]() {
        // 读取所有数据并追加到缓冲区
        _buffer.append(_socket.readAll());
        // ❌ 错误1：在循环外创建QDataStream
        QDataStream stream(&_buffer, QIODevice::ReadOnly);
        stream.setVersion(QDataStream::Qt_5_0);
        forever {
            // 先解析头部
            if(!_b_recv_pending){
                if (_buffer.size() < FILE_UPLOAD_HEAD_LEN) {
                    return; // 数据不够
                }
                // ❌ 错误2：重复使用同一个stream对象
                stream >> _message_id >> _message_len;
                // ❌ 错误3：修改buffer后，stream的读取位置不会重置
                _buffer = _buffer.mid(FILE_UPLOAD_HEAD_LEN);
                qDebug() << "Message ID:" << _message_id 
                         << ", Length:" << _message_len;
            }
            // 检查消息体是否完整
            if(_buffer.size() < _message_len){
                _b_recv_pending = true;
                return;
            }
            _b_recv_pending = false;
            QByteArray messageBody = _buffer.mid(0, _message_len);
            _buffer = _buffer.mid(_message_len);
            handleMsg(ReqId(_message_id), _message_len, messageBody);
        }
    });
}

2.2 问题根源

核心问题：QDataStream的读取位置不会随buffer内容变化而重置

// 第一次循环
QDataStream stream(&_buffer, QIODevice::ReadOnly);  // stream绑定&_buffer
stream >> _message_id >> _message_len;              // stream内部位置 pos = 6
_buffer = _buffer.mid(6);                           // buffer内容变了，但stream.pos还是6！
// 第二次循环（❌ 错误发生）
stream >> _message_id >> _message_len;              // 从位置6继续读，跳过了新消息的头部！

三、图解说明

3.1 数据结构示意图

接收到的TCP数据流（粘包情况）：
┌──────────────────────────────────────────────────────────┐
│ [ID1][LEN1][BODY1......] [ID2][LEN2][BODY2...] [ID3]... │
└──────────────────────────────────────────────────────────┘
  ← 消息1 →                ← 消息2 →           ← 消息3

3.2 错误流程图解

【初始状态】
_buffer: [00 01][00 0A][42 4F 44 59 31....][00 02][00 05][42 4F 44 59 32]
          ↑ stream.pos = 0
         ID=1  LEN=10    BODY1(10字节)      ID=2  LEN=5   BODY2(5字节)
【第一次循环 - 读取头部】
stream >> _message_id >> _message_len;  // 读取ID=1, LEN=10
_buffer: [00 01][00 0A][42 4F 44 59 31....][00 02][00 05][42 4F 44 59 32]
                        ↑ stream.pos = 6
【第一次循环 - 移除头部】
_buffer = _buffer.mid(6);  // 移除前6字节
_buffer: [42 4F 44 59 31....][00 02][00 05][42 4F 44 59 32]
                              ↑ stream.pos = 6 ❌ 位置没有重置！
【第一次循环 - 移除消息体】
_buffer = _buffer.mid(10);  // 移除BODY1
_buffer: [00 02][00 05][42 4F 44 59 32]
                        ↑ stream.pos = 6 ❌ 超出实际数据！
【第二次循环 - ❌ 错误发生】
stream >> _message_id >> _message_len;  
// 尝试从位置6读取，但buffer只有8字节！
// 或者读取到错误的数据位置
期望: 从位置0读取 [00 02][00 05]
实际: 从位置6读取（可能越界或读到BODY2的数据）

3.3 内存示意图

// 代码执行过程的内存变化
【步骤1】创建Stream
┌────────────────┐
│   _buffer变量   │ 地址: 0x1000
│   内容指针 ────┼──→ [00 01 00 0A 42 4F ...]
└────────────────┘
         ↑
         │ 绑定
┌────────┴───────┐
│  QDataStream   │
│  bufferPtr: 0x1000  │ ← 指向_buffer变量
│  readPos: 0         │ ← 读取位置
└────────────────┘
【步骤2】第一次读取
QDataStream.readPos: 0 → 6  ✅
【步骤3】修改buffer
_buffer = _buffer.mid(6);
┌────────────────┐
│   _buffer变量   │ 地址: 0x1000 (不变)
│   内容指针 ────┼──→ [42 4F 44 59 31 ...] (新内容)
└────────────────┘
         ↑
         │ 仍然绑定
┌────────┴───────┐
│  QDataStream   │
│  bufferPtr: 0x1000  │ ✅ 能看到新内容
│  readPos: 6         │ ❌ 位置未重置！
└────────────────┘
【问题】
Stream通过bufferPtr能访问新内容[42 4F 44 59 31 ...]
但readPos=6，会尝试从新内容的第6个字节开始读
而不是从第0个字节开始！

四、原理深入解析

4.1 QByteArray赋值机制

QByteArray _buffer = "ABCDEFGH";  
// _buffer变量地址: 0x1000
// 数据地址: 0x2000 → ['A','B','C','D','E','F','G','H']
_buffer = _buffer.mid(4);
// _buffer变量地址: 0x1000 ✅ 不变
// 数据地址: 0x2100 → ['E','F','G','H'] ✅ 新数据（COW机制）

关键点：

_buffer 变量的地址不变
_buffer 存储的内容变了
stream(&_buffer) 绑定的是变量地址，能看到新内容
但 stream 的内部位置是独立维护的

4.2 QDataStream工作原理

// QDataStream简化实现
class QDataStream {
private:
    QIODevice* device;      // 绑定的设备或buffer
    int readPosition;       // ✅ 关键：内部维护的读取位置
public:
    QDataStream& operator>>(qint16& i) {
        // 从readPosition位置读取2字节
        i = readFromPosition(readPosition, 2);
        readPosition += 2;  // ✅ 递增位置
        return *this;
    }
};

4.3 为什么打断点会暴露问题？

【正常运行】
readyRead信号1: 接收消息1(完整)  → 立即处理 → buffer清空
readyRead信号2: 接收消息2(完整)  → 立即处理 → buffer清空
每次buffer只有一个完整消息，即使stream位置有问题，
第二次触发readyRead时创建了新的stream对象（不对，这里stream在循环外）
【打断点】
readyRead信号1: 接收消息1         ↓
                接收消息2          } 断点期间累积
                接收消息3          ↓
               → 恢复运行 → buffer有3个消息(粘包)
进入forever循环：
第一次循环: stream.pos 6→16→26  ❌
第二次循环: 从pos=26继续读 ❌ 完全错位！

五、解决方案

5.1 方案一：每次循环重新创建Stream（推荐）

QObject::connect(&_socket, &QTcpSocket::readyRead, this, [&]() {
    // 追加新数据到缓冲区
    _buffer.append(_socket.readAll());
    qDebug() << "Buffer size:" << _buffer.size();
    // ✅ 使用while代替forever，逻辑更清晰
    while (true) {
        // ============ 阶段1: 解析消息头 ============
        if (!_b_recv_pending) {
            // 检查头部是否完整
            if (_buffer.size() < FILE_UPLOAD_HEAD_LEN) {
                qDebug() << "Waiting for more header data...";
                return;
            }
            // ✅ 关键修复：每次都创建新的stream
            QDataStream stream(_buffer);
            stream.setVersion(QDataStream::Qt_5_0);
            stream >> _message_id >> _message_len;
            // ✅ 使用remove代替mid赋值（性能更好）
            _buffer.remove(0, FILE_UPLOAD_HEAD_LEN);
            qDebug() << "Parsed header - ID:" << _message_id 
                     << ", Length:" << _message_len;
            // ✅ 添加长度校验，防止异常数据
            if (_message_len > 10 * 1024 * 1024 || _message_len < 0) {
                qWarning() << "Invalid message length:" << _message_len;
                _buffer.clear();
                _b_recv_pending = false;
                return;
            }
        }
        // ============ 阶段2: 解析消息体 ============
        if (_buffer.size() < _message_len) {
            qDebug() << "Waiting for more body data..." 
                     << _buffer.size() << "/" << _message_len;
            _b_recv_pending = true;
            return;
        }
        _b_recv_pending = false;
        // 提取消息体
        QByteArray messageBody = _buffer.left(_message_len);
        _buffer.remove(0, _message_len);
        qDebug() << "Received complete message, body size:" 
                 << messageBody.size();
        // 处理消息
        handleMsg(ReqId(_message_id), _message_len, messageBody);
        // ✅ 继续循环处理剩余数据（处理粘包）
    }
});

5.2 方案二：手动解析（高性能场景）

QObject::connect(&_socket, &QTcpSocket::readyRead, this, [&]() {
    _buffer.append(_socket.readAll());
    while (true) {
        if (!_b_recv_pending) {
            if (_buffer.size() < 6) {
                return;
            }
            // ✅ 手动解析，避免QDataStream开销
            // 假设大端序(Big-Endian)
            _message_id = (quint16(_buffer[0]) << 8) | quint8(_buffer[1]);
            _message_len = (quint32(_buffer[2]) << 24) | 
                          (quint32(_buffer[3]) << 16) |
                          (quint32(_buffer[4]) << 8)  | 
                           quint32(_buffer[5]);
            _buffer.remove(0, 6);
            qDebug() << "ID:" << _message_id << "Len:" << _message_len;
        }
        if (_buffer.size() < _message_len) {
            _b_recv_pending = true;
            return;
        }
        _b_recv_pending = false;
        QByteArray messageBody = _buffer.left(_message_len);
        _buffer.remove(0, _message_len);
        handleMsg(ReqId(_message_id), _message_len, messageBody);
    }
});

5.3 方案三：使用状态机（大型项目推荐）

class FileTcpMgr : public QObject {
    enum ParseState {
        PARSE_HEADER,
        PARSE_BODY
    };
    ParseState _state = PARSE_HEADER;
    void onReadyRead() {
        _buffer.append(_socket.readAll());
        while (true) {
            if (_state == PARSE_HEADER) {
                if (!tryParseHeader()) {
                    return;  // 数据不足
                }
                _state = PARSE_BODY;
            }
            if (_state == PARSE_BODY) {
                if (!tryParseBody()) {
                    return;  // 数据不足
                }
                _state = PARSE_HEADER;
            }
        }
    }
    bool tryParseHeader() {
        if (_buffer.size() < 6) return false;
        QDataStream stream(_buffer);
        stream.setVersion(QDataStream::Qt_5_0);
        stream >> _message_id >> _message_len;
        _buffer.remove(0, 6);
        return true;
    }
    bool tryParseBody() {
        if (_buffer.size() < _message_len) return false;
        QByteArray body = _buffer.left(_message_len);
        _buffer.remove(0, _message_len);
        handleMsg(ReqId(_message_id), _message_len, body);
        return true;
    }
};

六、对比验证

6.1 错误代码的执行流程

接收数据: [ID1:6字节][BODY1:10字节][ID2:6字节][BODY2:5字节]
stream创建，pos=0
├─ 第1次循环
│  ├─ stream读取(pos 0→6): ID1 ✅
│  ├─ buffer.mid(6): buffer变为[BODY1][ID2][BODY2]
│  ├─ stream.pos=6 ❌ 未重置
│  ├─ buffer.mid(10): buffer变为[ID2][BODY2]
│  └─ stream.pos=6 ❌ 仍未重置
│
└─ 第2次循环
   ├─ stream读取(pos 6→12): ❌ 越界或读到BODY2数据
   └─ 解析错误！

6.2 正确代码的执行流程

接收数据: [ID1:6字节][BODY1:10字节][ID2:6字节][BODY2:5字节]
├─ 第1次循环
│  ├─ stream创建，pos=0 ✅
│  ├─ stream读取: ID1 ✅
│  ├─ stream销毁
│  ├─ buffer.remove(6): buffer=[BODY1][ID2][BODY2]
│  └─ buffer.remove(10): buffer=[ID2][BODY2]
│
└─ 第2次循环
   ├─ stream创建，pos=0 ✅ 重新开始
   ├─ stream读取: ID2 ✅
   └─ 解析正确！

七、最佳实践总结

7.1 核心原则

原则	说明
Stream局部化	在需要时创建，用完即销毁
数据校验	验证长度字段的合法性
状态管理	明确区分头部和消息体解析状态
错误处理	异常数据要清空buffer，避免连锁错误

7.2 代码检查清单

✅ QDataStream是否在每次解析时重新创建？
✅ 是否使用_buffer.remove()而不是mid()赋值？
✅ 是否校验了消息长度的合理性？
✅ 是否处理了粘包情况（while循环）？
✅ 是否添加了详细的调试日志？
✅ 是否考虑了半包情况（数据不足时return）？

7.3 性能优化建议

// 1. 预分配buffer容量
_buffer.reserve(4096);
// 2. 避免频繁的mid()调用
// ❌ 差
_buffer = _buffer.mid(len);  
// ✅ 好
_buffer.remove(0, len);
// 3. 大数据使用引用传递
void handleMsg(ReqId id, int len, const QByteArray& body);  // 避免拷贝
// 4. 考虑使用零拷贝技术
QByteArray body = QByteArray::fromRawData(_buffer.constData(), len);

八、常见问题FAQ

Q1: 为什么不能在循环外创建Stream？

A: Stream维护独立的读取位置，buffer内容变化后不会自动重置位置。

Q2: mid()和remove()有什么区别？

mid(n) 返回新对象，需要赋值操作
remove(0, n) 直接修改原对象，性能更好

C++ 线程池原理和实现 mzx2023:两种方法解决，一种是改排序算法，就是当线程耗尽的时候，使用普通递归，另一种是当在线程池commit的时候，判断线程是否耗尽，耗尽的话就直接当前线程执行task

利用指针和容器实现文本查询越今朝:应该添加一个过滤功能以解决部分单词无法被查询的问题: eg: "I am a teacher."中的teacher无法被查询，因为在示例代码中teacher.被解释为一个单词从而忽略了teacher本身。

解决博客回复区被脚本注入的问题 secondtonone1:走到现在我忽然明白一个道理，无论工作也好生活也罢，最重要的是开心，即使一份安稳的工作不能给我带来事业上的积累也要合理的舍弃，所以我还是想去做喜欢的方向。

处理网络粘包问题 zyouth: //消息的长度小于头部规定的长度，说明数据未收全，则先将部分消息放到接收节点里 if (bytes_transferred < data_len) { memcpy(_recv_msg_node->_data + _recv_msg_node->_cur_len, _data + copy_len, bytes_transferred); _recv_msg_node->_cur_len += bytes_transferred; ::memset(_data, 0, MAX_LENGTH); _socket.async_read_some(boost::asio::buffer(_data, MAX_LENGTH), std::bind(&CSession::HandleRead, this, std::placeholders::_1, std::placeholders::_2, shared_self)); //头部处理完成 _b_head_parse = true; return; } 把_b_head_parse = true;放在_socket.async_read_some前面是不是更好

恋恋风辰的官方博客

相关推荐