← Back to 文本挖掘 TM / TM-01

文本数据与预处理

Learn how to collect, clean, segment, and structure text data for computational analysis.

Text Data and Preprocessing 90 min Introductory

1. What Is Text Data?

文本数据可以来自论文摘要、政策文件、专利文本、企业年报、新闻报道、在线社区帖子和访谈材料。文本挖掘的第一步不是直接建模,而是理解文本来源、语境、结构和研究目标。

2. Preprocessing Pipeline

常见步骤包括:去重、清洗、分词、停用词处理、词形归一化、短文本合并、元数据匹配和结构化存储。

3. Research-oriented Cleaning

清洗不是机械地删除所有“噪音”。有些看似噪音的信息,例如情绪词、标点、时间表达和专业术语,可能正是研究所需的证据。因此,预处理策略必须服务于研究问题。

4. Output

完成本节后,你应该能够构建一个包含文本、时间、来源、类别和研究对象 ID 的结构化数据表。