名詞だけ取り出してみたいけどフォーマットがわからない
名詞だけ取り出してみたいけどフォーマットがわからない
import feedparser
import MeCab
# RSS情報の解析
feed_url = 'http://www.google.com/alerts/feeds/00589504292042636252/14036617124475365786'
feed_result = feedparser.parse(feed_url)
# 記事タイトルの形態素解析を行う
m = MeCab.Tagger()
# 記事タイトルを取得し配列に格納する
entry_array = []
for entry in feed_result.entries:
print(entry.title)
print('\n')
result = m.parse(entry.title)
# entry_array.append(entry.title)
print('aaaaaaaaa\n')
print(result)
nouns = [line for line in m.parse(result).splitlines()
if "名詞" in line.split()[-1]]
for str in nouns:
print(str.split())
-[出力結果]----
print(entry.title)
豊田通商が「仮想発電所」 トヨタと実験、再エネ車に蓄電
print(result)
豊田 トヨダ トヨダ トヨダ 名詞-固有名詞-人名-姓 1
通商 ツーショー ツウショウ 通商 名詞-普通名詞-サ変可能 0
が ガ ガ が 助詞-格助詞
「 「 補助記号-括弧開
仮想 カソー カソウ 仮想 名詞-普通名詞-サ変可能 0
発電 ハツデン ハツデン 発電 名詞-普通名詞-サ変可能 0
所 ショ ショ 所 接尾辞-名詞的-一般
」 」 補助記号-括弧閉
トヨタ トヨタ トヨタ 豊田 名詞-固有名詞-一般 1
と ト ト と 助詞-格助詞
実験 ジッケン ジッケン 実験 名詞-普通名詞-サ変可能 0
、 、 補助記号-読点
再 サイ サイ 再 接頭辞
エネ エネ エネ エネ-energy 名詞-普通名詞-一般 1
車 シャ シャ 車 接尾辞-名詞的-一般
に ニ ニ に 助詞-格助詞
蓄電 チクデン チクデン 蓄電 名詞-普通名詞-サ変可能 0
EOS
for str in nouns:
print(str.split())
['ハツ', 'ハツ', 'ハツ', '発', '接尾辞-名詞的-一般']
['所', 'ショ', 'ショ', '所', '接尾辞-名詞的-一般']
['ショ', 'ショ', 'ショ', '書', '接尾辞-名詞的-一般']
['ショ', 'ショ', 'ショ', '書', '接尾辞-名詞的-一般']
['所', 'ショ', 'ショ', '所', '接尾辞-名詞的-一般']
['サイ', 'サイ', 'サイ', '菜', '接尾辞-名詞的-一般']
['車', 'シャ', 'シャ', '車', '接尾辞-名詞的-一般']
['シャ', 'シャ', 'シャ', '車', '接尾辞-名詞的-一般']
['シャ', 'シャ', 'シャ', '車', '接尾辞-名詞的-
思ってたんとチガウ( ‘ᾥ’ )( ‘ᾥ’ )
print(result[0])だと豊になる
print(result[1])だと田になる
( ‘ᾥ’ )( ‘ᾥ’ )( ‘ᾥ’ )( ‘ᾥ’ )
nouns = [line for line in m.parse(result).splitlines()
if "名詞" in line.split()[-1]]
が取ってるのは「名詞」じゃなくて「名詞的」って奴っぽい
m = MeCab.Tagger()
を
m = MeCab.Tagger(-Owakati)とすると分かち書きができて便利!
m = MeCab.Tagger(-Ochasen)とすると解析できる?っぽいけどできない
( ‘ᾥ’ )( ‘ᾥ’ )( ‘ᾥ’ )
_人人人人人人_
> できない <
 ̄Y^Y^Y^Y^Y^Y^ ̄
m = MeCab.Tagger()でなんかそれっぽいのができているからこれでよしとしよう???
作りたいのはこんな感じの
http://izumino.jp/Security/trend.html
自分の好きなサイトで同じことをしたい
Mecabはね
pip install mecab-python3してから
pip install unidic-liteしないとダメみたい
GitHubはそう言ってた
https://github.com/SamuraiT/mecab-python3#common-issues
RSSフィードをパースする←OK!
パースした情報を形態素解析する←OK?!
解析データから名詞を取り出す←ダメっぽい
解析データから頻出ワードを洗い出す←できてない(._.)
http://www.nltk.org/book-jp/ch12.html
>ChaSen 形式は、以下のように、出現形、読み、原形、品詞、活用などの情報がタブ区切りになっている形式である
----------
私 ワタクシ 私 名詞-代名詞-一般
は ハ は 助詞-係助詞
昨日 キノウ 昨日 名詞-副詞可能
学校 ガッコウ 学校 名詞-一般
----------
!!!つまり、1行からタブをsplit()して名詞-一般である単語をif文で探して抽出できれば...!?!?
先生…ChaSenが使いたいです…!
┌┐ / //
[二 ] __ 〔/ /
| |/,ー-、ヽ /
/ / _,,| | ./
レ1 | / o └、 ∠/ ∧_∧
.|__| ヽ_/^ ,/ (`・ω・) ))
__ / /つ( ̄`ヽO_ノ⌒ヽ
[二二_ ] / ノ ) \ ))
// {.. (__丿\ヽ :: ノ:::: )
/ ∠__  ̄フ.. 丿 ,:' ))
∠___ / / (( (___,,.;:--''"´``'‐'
_ / / \
/ o ヽ/ / /
ヽ__ / \
覗いたら勢いよく寝ててチェオ
解析しとるんや。面白そう
俺は出版するほうでこいつ使っとる https://feedgen.kiesow.be/#create-a-feed
だいたいそのままいける
プログラム部ぐらいで立ててくんない?
パソコン部じゃ自作スレやらと勘違いして覗いてしまったわ
MeCabって書いてんだろ!バーカ!!!
MeCabとか誰も知らんわ
お前が知ってるから皆知ってると思ってんのか
つまりパソコン部でもプログラミング部でもなくメカ部であるってこと
知らないならggrという基礎を知らない人間がいるとは
|| ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄||
|| ○荒らしは放置が一番キライ。荒らしは常に誰かの反応を待っています。
|| ○重複スレには誘導リンクを貼って放置。ウザイと思ったらそのまま放置。
|| ○放置された荒らしは煽りや自作自演であなたのレスを誘います。
|| ノセられてレスしたらその時点であなたの負け。
|| ○反撃は荒らしの滋養にして栄養であり最も喜ぶことです。荒らしにエサを
|| 与えないで下さい。 Λ_Λ
|| ○枯死するまで孤独に暴れさせておいて \ (゚ー゚*) キホン。
|| ゴミが溜まったら削除が一番です。 ⊂⊂ |
|| ___ ∧ ∧__∧ ∧__ ∧ ∧_ | ̄ ̄ ̄ ̄|
( ∧ ∧__ ( ∧ ∧__( ∧ ∧  ̄ ̄ ̄
~(_( ∧ ∧_ ( ∧ ∧_ ( ∧ ∧ は~い、先生。
~(_( ,,)~(_( ,,)~(_( ,,)
~(___ノ ~(___ノ ~(___ノ