拾荒的小海螺

1、简述

在大多数业务场景中，用户上传文件时很容易出现重复文件（例如重复上传相同的 PDF、图片、音频等）。如果不加处理，既浪费存储空间，又会增加管理成本。

本文将介绍文件防重（去重）的常见实现思路，并给出一个基于 Java 的实践样例。

2、设计原理

文件防重的基本思路是通过计算文件的哈希值（如 MD5、SHA-1 等）来唯一标识文件内容。当上传文件时，首先计算其哈希值，然后检查该哈希值是否已经存在。如果存在，则认为文件重复，不进行存储；否则，将文件存储并记录其哈希值。

基于文件名

最简单的方式：上传时检查文件名是否重复。

缺点：不同文件可能同名，无法真正避免重复。

基于文件大小

上传时检查文件大小是否一致。

缺点：不同内容的文件也可能大小相同。

基于文件哈希（推荐）

计算文件内容的哈希值（MD5、SHA-256 等），相同内容一定会产生相同的哈希值。

上传时先计算哈希，如果已存在则拒绝上传。

✅ 优点：精确、可靠。

❌ 缺点：计算哈希有一定开销，尤其是大文件。

基于分块哈希（大文件优化）

将文件分块计算哈希，再合并成整体哈希。

适合大文件或分布式存储。

3、实践样例

3.1 准备工作

首先，确保您的开发环境中包含以下依赖：

🔹 Java SDK
🔹 Spring Boot（用于构建 RESTful API）
🔹 Apache Commons IO（用于处理文件操作）

在 pom.xml 中添加以下依赖：

<dependencies>
    <dependency>
        <groupId>org.springframework.boot</groupId>
        <artifactId>spring-boot-starter-web</artifactId>
    </dependency>
    <dependency>
        <groupId>commons-io</groupId>
        <artifactId>commons-io</artifactId>
        <version>2.8.0</version>
    </dependency>
</dependencies>

3.2 计算文件哈希值

使用 Apache Commons IO 和 Java 标准库计算文件的哈希值：

import org.apache.commons.io.IOUtils;

import java.io.InputStream;
import java.security.MessageDigest;

public class FileHashUtil {

    public static String calculateHash(InputStream inputStream, String algorithm) throws Exception {
        MessageDigest digest = MessageDigest.getInstance(algorithm);
        byte[] byteArray = IOUtils.toByteArray(inputStream);
        byte[] hashBytes = digest.digest(byteArray);
        StringBuilder sb = new StringBuilder();
        for (byte b : hashBytes) {
            sb.append(String.format("%02x", b));
        }
        return sb.toString();
    }
}

3.3 文件防重服务

创建一个服务类，包含文件存储和哈希值检查逻辑：

import org.springframework.stereotype.Service;
import org.springframework.web.multipart.MultipartFile;

import java.io.File;
import java.io.FileOutputStream;
import java.io.InputStream;
import java.nio.file.Files;
import java.nio.file.Paths;
import java.util.concurrent.ConcurrentHashMap;

@Service
public class FileService {

    private static final String STORAGE_DIR = "/path/to/storage";
    private ConcurrentHashMap<String, String> fileHashStore = new ConcurrentHashMap<>();

    public String uploadFile(MultipartFile file) throws Exception {
        InputStream inputStream = file.getInputStream();
        String hash = FileHashUtil.calculateHash(inputStream, "MD5");

        if (fileHashStore.containsKey(hash)) {
            return "File already exists with hash: " + hash;
        }

        File storageFile = new File(STORAGE_DIR, file.getOriginalFilename());
        try (FileOutputStream outputStream = new FileOutputStream(storageFile)) {
            outputStream.write(file.getBytes());
        }

        fileHashStore.put(hash, storageFile.getAbsolutePath());
        return "File uploaded successfully with hash: " + hash;
    }

    public boolean isFileDuplicate(MultipartFile file) throws Exception {
        InputStream inputStream = file.getInputStream();
        String hash = FileHashUtil.calculateHash(inputStream, "MD5");
        return fileHashStore.containsKey(hash);
    }
}

3.4 RESTful API 控制器

创建一个控制器类，提供文件上传的 REST 接口：

import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.http.ResponseEntity;
import org.springframework.web.bind.annotation.*;
import org.springframework.web.multipart.MultipartFile;

@RestController
@RequestMapping("/api/files")
public class FileController {

    @Autowired
    private FileService fileService;

    @PostMapping("/upload")
    public ResponseEntity<String> uploadFile(@RequestParam("file") MultipartFile file) {
        try {
            String response = fileService.uploadFile(file);
            return ResponseEntity.ok(response);
        } catch (Exception e) {
            return ResponseEntity.status(500).body("File upload failed: " + e.getMessage());
        }
    }

    @PostMapping("/check")
    public ResponseEntity<Boolean> checkFileDuplicate(@RequestParam("file") MultipartFile file) {
        try {
            boolean isDuplicate = fileService.isFileDuplicate(file);
            return ResponseEntity.ok(isDuplicate);
        } catch (Exception e) {
            return ResponseEntity.status(500).body(false);
        }
    }
}

3.5 运行和测试

启动 Spring Boot 应用，并使用工具（如 Postman）测试文件上传接口。

🔹 文件上传：
POST 请求到 /api/files/upload，上传文件。
如果文件存在，则返回文件已存在的信息。
如果文件不存在，则存储文件并返回成功信息。

🔹 文件重复检查：
POST 请求到 /api/files/check，上传文件。
返回文件是否重复的布尔值。

🔹 额外优化
存储优化：可以将文件存储路径改为哈希值的一部分，以便更好地组织和查找文件。
分布式支持：将文件哈希存储在 Redis 等分布式缓存中，以支持多实例环境。
哈希算法选择：根据文件大小和安全需求选择合适的哈希算法（如 SHA-256）。

4、总结

本文介绍了通过哈希值实现文件防重的设计方案，并详细列出了实现步骤。通过这种方式，可以有效避免重复存储相同文件，提升系统性能和存储效率。希望本文对您有所帮助，并能在实际项目中应用这些优化方法。

JAVA：实现文件防重的技术指南