迈入千禧年后,饶舌歌曲已逐渐进入主流音乐市场,深受年轻族群的欢迎。饶舌歌手经常透过自行创作的歌词来抒发心情或表达对社会的批判,了解饶舌音乐的歌词内容也能了解当代文化和社会风气。本研究目的旨在透过文字探勘,去探索台湾中文饶舌音乐歌词中可能存在之主题类型。本研究首先进行词频分析,从整体、年代两大面向观察各关键词的出现频率以了解歌词文本的基本内涵与词频分布,随后进行了k-means分群算法(k-means clustering)及邻近传播分群法之分群实验,并利用分群结果与人工标记之结果进行支援向量机与K-近邻算法之分类实验。本研究发现台湾中文饶舌音乐歌词近二十年来以音乐、爱情、派对的主题最为常见。分群成效方面,邻近传播分群法相较于k-means分群算法会得到略好些的分群成效。分类成效方面,使用K-近邻算法相较于支援向量机会得到略好些的分类成效,而且透过分群结果辅助分类标记能训练出比纯人工标记还要好的音乐类歌词二元分类模型。音乐类主题的歌词确实存在于台湾中文饶舌音乐歌词中,而其他主题类型的歌词因为有资料不平衡之问题存在,能否自成一类仍有待观察。建议未来研究可以增加歌词文本的收录范围、尝试不同的维度缩减方式、从不同面向进行词频分析、偕同专家或阅听者进行标记、使用不同的分群与分类方法。

title = "应用自动文字探勘于台湾中文饶舌音乐歌词之研究"

abstract = "迈入千禧年后,饶舌歌曲已逐渐进入主流音乐市场,深受年轻族群的欢迎。饶舌歌手经常透过自行创作的歌词来抒发心情或表达对社会的批判,了解饶舌音乐的歌词内容也能了解当代文化和社会风气。本研究目的旨在透过文字探勘,去探索台湾中文饶舌音乐歌词中可能存在之主题类型。本研究首先进行词频分析,从整体、年代两大面向观察各关键词的出现频率以了解歌词文本的基本内涵与词频分布,随后进行了k-means分群算法(k-means clustering)及邻近传播分群法之分群实验,并利用分群结果与人工标记之结果进行支援向量机与K-近邻算法之分类实验。本研究发现台湾中文饶舌音乐歌词近二十年来以音乐、爱情、派对的主题最为常见。分群成效方面,邻近传播分群法相较于k-means分群算法会得到略好些的分群成效。分类成效方面,使用K-近邻算法相较于支援向量机会得到略好些的分类成效,而且透过分群结果辅助分类标记能训练出比纯人工标记还要好的音乐类歌词二元分类模型。音乐类主题的歌词确实存在于台湾中文饶舌音乐歌词中,而其他主题类型的歌词因为有资料不平衡之问题存在,能否自成一类仍有待观察。建议未来研究可以增加歌词文本的收录范围、尝试不同的维度缩减方式、从不同面向进行词频分析、偕同专家或阅听者进行标记、使用不同的分群与分类方法。"

N2 - 迈入千禧年后,饶舌歌曲已逐渐进入主流音乐市场,深受年轻族群的欢迎。饶舌歌手经常透过自行创作的歌词来抒发心情或表达对社会的批判,了解饶舌音乐的歌词内容也能了解当代文化和社会风气。本研究目的旨在透过文字探勘,去探索台湾中文饶舌音乐歌词中可能存在之主题类型。本研究首先进行词频分析,从整体、年代两大面向观察各关键词的出现频率以了解歌词文本的基本内涵与词频分布,随后进行了k-means分群算法(k-means clustering)及邻近传播分群法之分群实验,并利用分群结果与人工标记之结果进行支援向量机与K-近邻算法之分类实验。本研究发现台湾中文饶舌音乐歌词近二十年来以音乐、爱情、派对的主题最为常见。分群成效方面,邻近传播分群法相较于k-means分群算法会得到略好些的分群成效。分类成效方面,使用K-近邻算法相较于支援向量机会得到略好些的分类成效,而且透过分群结果辅助分类标记能训练出比纯人工标记还要好的音乐类歌词二元分类模型。音乐类主题的歌词确实存在于台湾中文饶舌音乐歌词中,而其他主题类型的歌词因为有资料不平衡之问题存在,能否自成一类仍有待观察。建议未来研究可以增加歌词文本的收录范围、尝试不同的维度缩减方式、从不同面向进行词频分析、偕同专家或阅听者进行标记、使用不同的分群与分类方法。

AB - 迈入千禧年后,饶舌歌曲已逐渐进入主流音乐市场,深受年轻族群的欢迎。饶舌歌手经常透过自行创作的歌词来抒发心情或表达对社会的批判,了解饶舌音乐的歌词内容也能了解当代文化和社会风气。本研究目的旨在透过文字探勘,去探索台湾中文饶舌音乐歌词中可能存在之主题类型。本研究首先进行词频分析,从整体、年代两大面向观察各关键词的出现频率以了解歌词文本的基本内涵与词频分布,随后进行了k-means分群算法(k-means clustering)及邻近传播分群法之分群实验,并利用分群结果与人工标记之结果进行支援向量机与K-近邻算法之分类实验。本研究发现台湾中文饶舌音乐歌词近二十年来以音乐、爱情、派对的主题最为常见。分群成效方面,邻近传播分群法相较于k-means分群算法会得到略好些的分群成效。分类成效方面,使用K-近邻算法相较于支援向量机会得到略好些的分类成效,而且透过分群结果辅助分类标记能训练出比纯人工标记还要好的音乐类歌词二元分类模型。音乐类主题的歌词确实存在于台湾中文饶舌音乐歌词中,而其他主题类型的歌词因为有资料不平衡之问题存在,能否自成一类仍有待观察。建议未来研究可以增加歌词文本的收录范围、尝试不同的维度缩减方式、从不同面向进行词频分析、偕同专家或阅听者进行标记、使用不同的分群与分类方法。