文本数据与预处理 - Bo Xiang's Home Page

1. What Is Text Data?

文本数据可以来自论文摘要、政策文件、专利文本、企业年报、新闻报道、在线社区帖子和访谈材料。文本挖掘的第一步不是直接建模，而是理解文本来源、语境、结构和研究目标。

常见步骤包括：去重、清洗、分词、停用词处理、词形归一化、短文本合并、元数据匹配和结构化存储。

清洗不是机械地删除所有“噪音”。有些看似噪音的信息，例如情绪词、标点、时间表达和专业术语，可能正是研究所需的证据。因此，预处理策略必须服务于研究问题。

完成本节后，你应该能够构建一个包含文本、时间、来源、类别和研究对象 ID 的结构化数据表。