Pythonで文字列中の単語を数える方法：詳細ガイド

文字列から特定の単語がいくつ出現するかを数えることは、テキスト分析において非常に一般的なタスクです。この記事では、Pythonを使用して単語の出現回数を効率的に数えるための様々な方法を詳しく解説します。サンプルコードと具体的な例を通して、あなたのニーズに最適な方法を見つけられるようにします。

文字列中の単語出現回数を数える基本的な方法

split()メソッドによる分割とループ処理

まず、split()メソッドを使用して文字列を単語のリストに分割します。その後、ループ処理でリストを反復処理し、特定の単語と一致する回数をカウントします。

def count_occurrences(text, word):
    words = text.split()
    count = 0
    for w in words:
        if w == word:
            count += 1
    return count

text = "GeeksforGeeks A computer science portal for geeks"
word = "portal"
print(count_occurrences(text, word)) # Output: 1

この方法はシンプルで理解しやすいですが、文字列が長い場合はパフォーマンスが低下する可能性があります。

count()メソッドの使用

count()メソッドは、リスト内で特定の要素が出現する回数を直接返します。split()メソッドと組み合わせて使用することで、より簡潔にコードを記述できます。

def count_occurrences(text, word):
    words = text.split()
    return words.count(word)

text = "GeeksforGeeks A computer science portal for geeks"
word = "portal"
print(count_occurrences(text, word)) # Output: 1

こちらも文字列が長い場合はパフォーマンスが低下する可能性があります。

より高度な方法：正規表現（reモジュール）の使用

reモジュールは、正規表現を用いた高度な文字列操作を可能にします。単語の境界を考慮したり、大文字と小文字を区別しない検索を行う場合に非常に役立ちます。

re.findall()メソッドの利用

re.findall()メソッドは、文字列内でパターンに一致するすべての部分文字列をリストとして返します。

import re

def count_occurrences(text, word):
    pattern = r'\b' + re.escape(word) + r'\b' #単語境界を設定
    matches = re.findall(pattern, text)
    return len(matches)

text = "GeeksforGeeks A computer science portal for geeks"
word = "geeks"
print(count_occurrences(text, word)) # Output: 1

\bは単語境界を表し、re.escape()は特殊文字をエスケープします。この方法は、単語全体を正確にカウントしたい場合に適しています。

まとめ：最適な方法の選択

この記事では、Pythonで文字列中の単語出現回数を数えるための3つの主要な方法を紹介しました。

基本的な方法（split()とループ、count()）：シンプルで理解しやすいですが、パフォーマンスが低い可能性があります。
正規表現（re.findall()）：高度な検索が可能で、単語境界や大文字小文字の区別を制御できます。

あなたのタスクの要件に応じて、最適な方法を選択してください。特に、大量のテキストデータを処理する場合は、パフォーマンスを考慮することが重要です。正規表現は、より複雑なパターンマッチングが必要な場合に非常に強力なツールとなります。